DEPARTEMENT D’INFORMATIQUE MEMOIRE Présenté par Melle Fyad Houda En vue de l’obtention du DIPLÔME DE MAGISTER Spécialité Informatique Option : Informatique et Automatique Intitulé Technique de Bio-Mining pour la représentation, la gestion et l’extraction des informations associées aux séquences d’ADN Soutenu le / / devant le jury composé de : Président : Mr Beldjilali. B Professeur Université d’Oran Examinateur : Mr Belalem. G Maître de Conférences Université d’Oran Examinateur : Mr .Senouci .M Maître de Conférences Université d’Oran Rapporteur : Mr. Bouamrane. K Maître de Conférences Université d’Oran Rapporteur : Mr. Atmani. B Maître de Conférences Université d’Oran 2010-2011 Dédicaces mes très chers parents qui ont toujours été là pour moi, et qui m'ont donné un magnifique modèle de labeur et de persévérance. J'espère qu'ils trouveront dans ce travail toute ma reconnaissance et tout mon amour. mon cher frère Samir Mounir. tous mes ami(e)s je les remercie pour leur dévouement et leur amitié sans faille. Remerciements Au terme de ce travail, qu’il me soit permis d’exprimer mes plus vifs remerciements à : Mr Bouamrane K. Maître de Conférences et Chef du Département d’Informatique à l’Université d’Oran pour avoir accepté de diriger ce travail et avoir bien voulu y consacrer son temps. Ses conseils, sa disponibilité et sa précieuse aide qui m’ont guidé tout le long de la conduite de cette étude. Mr Atmani B. Maître de Conférences à l’Université d’Oran pour avoir accepté également de m’encadrer. Ses orientations, ses précieux conseils m’ont permis d’avancer dans mes recherches. Mr Beldjilali B. Professeur à l’Université d’Oran pour m’avoir accueilli dans son équipe Informatique & Automatique et pour m’avoir fait l’honneur de présider ce jury. Qu’il trouve ici l’expression de mon profond respect. Mr Belalem G. Maître de Conférences à l’Université d’Oran pour avoir accepté d’examiner ce travail, qu’il trouve ici l’expression de ma reconnaissance. Mr Senouci M. Maître de Conférences à l’Université d’Oran pour avoir accepté de juger ce travail, qu’il trouve ici le témoignage de ma reconnaissance. Je tiens à remercier aussi toutes les personnes qui ont contribué de près ou de loin à la réalisation de ce travail. Liste des figures Figure 1.1 Architecture type d’un système d’E.C.D 10 Figure 1.2 Chaîne de traitement dans un processus E.C.T 11 Figure 2.1 Composants des ontologies 28 Figure 2.2 Classification des ontologies selon l’objet à modéliser 30 Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser 31 Figure 3.1 Cycle de vie des ontologies 55 Figure 4.1 Schématisation de l’approche 58 Figure 4.2 Exemple d’une entrée de fiche d’ESTs 61 Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A 68 Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test). 77 Figure 4.5 Format des données manipulées 81 Figure 4.6 Importation du fichier CH.arff sous TANAGRA 82 Figure 4.7 Chargement des données sous TANAGRA 82 Figure 4.8 Définition des données sous TANAGRA 83 Figure 4.9 Définition de la méthode du Clustering sous TANAGRA 84 Figure 4.10 Nombres de clusters construits par la méthode du Clustering 84 Figure 4.11 Résultat du Clustering 85 Figure 4.12 Résultat des corrélations du Clustering 86 Figure 4.13 Résultat de la variation des clusters 87 Figure 4.14 Résultat du dendrogramme 88 Figure 4.15 Ontologie « Etapes du cycle cellulaire des champignons » 95 Figure 4.16 Ontologie « Tissus cellulaire des champignons » 98 Figure 4.17 Ontologie « Caractéristiques des souches des champignons » 100 Figure 4.18 Ontologie « Conditions de culture des champignons » 103 Figure 4.19 Architecture générale de l’application 108 Figure 4.20 Cas d’utilisation de tous les utilisateurs 110 Figure 4.21 Cas d’utilisation de l’expert du domaine 110 Figure 4.22 Cas d’utilisation de l’administrateur 111 Figure 4.23 Architecture du module consultation 112 Figure 4.25 Architecture du module exploitation 113 Figure 4.26 Architecture du module enrichissement 113 Figure 4.24 Diagramme de séquence de la recherche d’information par mots-clés 114 Figure 4.27 Diagramme de séquence de la mise à jour de l’ontologie via la BDD 114 Figure 5.1 Interface principale de l’application 120 Figure 5.2 Menu Fichier 121 Figure 5.3 Menu Recherche 121 Figure 5.4 Menu Mise à jour 122 Figure 5.5 Interface de l’ontologie biologique du domaine 123 Figure 5.6 Interface de la recherche par mots-clés 124 Figure 5.7 Prétraitement des fiches d’ESTs 125 Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs 126 Figure 5.9 Résultat du clustering des termes des fiches d’ESTs 126 Figure 5.10 Connexion à la base de données 127 Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine 128 Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO » 129 Figure 5.13 La table ontologie avant la mise à jour 129 Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP) 130 Figure 5.15 La table ontologie après la mise à jour 130 Figure A.1 Cycle de vie de N.crassa 146 Figure A.2 Cycle de vie de P.anserina 147 Figure B.1 Procédé d’obtention des ESTs 151 Figure D.1 Résultats de l’extraction automatique des deux métriques pour un échantillon 157 d’apprentissage =500 fiches d’ESTs (Neurospora crassa) Figure D.2 Résultats de l’extraction automatique des deux métriques pour un échantillon 158 d’apprentissage =1 000 fiches d’ESTs (Neurospora crassa) Figure D.3 Résultats de l’extraction automatique des deux métriques pour un échantillon 159 d’apprentissage =5 000 fiches d’ESTs (Neurospora crassa) Figure D.4 Résultats de l’extraction automatique des deux métriques pour un échantillon 160 d’apprentissage =10 000 fiches d’ESTs (Neurospora crassa) Figure D.5 Résultats de l’extraction automatique des deux métriques pour un échantillon 161 d’apprentissage =50 000 fiches d’ESTs (Neurospora crassa) Figure D.6 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =100 000 fiches d’ESTs (Neurospora crassa) 162 Liste des tableaux Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique 43 Tableau 4.1 Détail des informations expérimentales de P.anserina 63 Tableau 4.2 Détail des informations expérimentales de N.crassa (1/4) 64 Tableau 4.3 Détail des informations expérimentales de N.crassa (2/4) 65 Tableau 4.4 Détail des informations expérimentales de N.crassa (3/4) 66 Tableau 4.5 Détail des informations expérimentales de N.crassa (4/4) 67 Tableau 4.6 Résultats de l’extraction manuelle des termes (aspect morphologique) 70 Tableau 4.7 Résultats de l’extraction manuelle des termes (aspect expérimental) 71 Tableau 4.8 Résultat de la construction du modèle pour la métrique TF*IDF 75 Tableau 4.9 Résultat de la construction du modèle pour la métrique 76 Première occurrence Tableau 4.10 L’effet de la taille de l’échantillon test sur le corpus global Tableau 4.11 Trois exemples d'extraction de termes avec l'outil KEA pour trois expériences 78 79 (colonne 2) complétée par le biologiste (colonne 3) Tableau 4.12 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des 92 champignons ». (1/3) Tableau 4.13 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des 93 champignons ». (2/3) Tableau 4.14 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des 94 champignons ». (3/3) Tableau 4.15 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des 96 champignons ». (1/2) Tableau 4.16 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des champignons ». (2/2) 97 Tableau 4.17 Classes et hiérarchie des classes de l’ontologie « Caractéristiques des souches des 99 champignons » Tableau 4.18 Classes et hiérarchie des classes de l’ontologie « conditions de culture des 101 champignons » (1/2) Tableau 4.19 Classes et hiérarchie des classes de l’ontologie « conditions de culture des 102 champignons » (1/2) Tableau 4.20 Propriétés des classes de l’ontologie 104 Tableau 4.21 Relations des classes de l’ontologie 104 Tableau 4.22 Instances des classes de l’ontologie 105 Tableau A.1 Comparaison entre N.crassa et P.anserina 149 Tableau B.1 dbEST - Nombre d'EST par organisme 154 Résumé Un des problèmes majeurs rencontré par les biologistes, est l’extraction et l’exploitation des données qui les intéressent à travers les multiples ressources disponibles sur le Web. Ce problème n’est pas simple en raison de la multiplicité des ressources, l’hétérogénéité et la variabilité des formats, les mises à jour inégales, la redondance des nomenclatures, etc. Par conséquent, un recours à la fouille de données pour l’extraction de données particulières apporterait une solution à ce problème. Ainsi, la fouille de données ou plus particulièrement la fouille de textes dans notre cas d’application, est un domaine de recherche qui vise à résoudre les problèmes de surcharge d’informations et à faciliter la découverte de connaissances cachées dans les documents. En effet, la plupart des informations exploitées par les biologistes sont sous forme textuelle et écrites en langage naturel à partir desquelles il s’agit d’extraire les éléments susceptibles de constituer des connaissances pertinentes de telle sorte qu'un biologiste puisse obtenir des réponses claires à une requête spécifique. Traditionnellement, deux approches permettent une telle extraction : w L’approche linguistique basée sur la définition de patrons lexico-syntaxiques. w L’approche statistique basée sur la découverte des termes-clés. Dans le contexte de notre application qui vise à exploiter les informations en langage naturel associées à des données biologiques de séquences biologiques, les ESTs (Expressed Sequence Tags), nous avons utilisé un extracteur de termes-clés, basé sur des principes statistiques appelé Automatic Keyphrase Extraction (K.E.A). Ensuite, nous avons construit quatre ontologies à partir de termes extraits afin de représenter les connaissances associées aux séquences issues des deux champignons modèles Neurospora crassa et Podospora anserina. Enfin, avec l’utilisation du clustering, nous montrons comment les termes des ontologies obtenues peuvent être exploités pour l’évaluation du niveau d’expression des gènes. Mots clés : fouilles de textes, ontologie, corpus de textes, extraction terminologique, champignons modèles, Neurospora crassa, Podospora anserina, Expressed Sequence Tags (EST), clustering. Abstract A major problem faced by biologists, is the extraction and exploitation of data of interest across multiple resources available on the Web. This problem is not simple because of the multiplicity of resources, heterogeneity and variability of formats, unequal updates and redundancy of classifications, etc. Therefore, we consider that use of data mining to extract specific data would provide a solution to this problem. Thus, data mining, or more specifically the text mining application in our case, is an area research that aims to solve problems of information overload and facilitate the discovery of hidden knowledge in documents. Indeed, most information used by biologists are written in text form and natural language from which it is to extract information that may be relevant knowledge so that a biologist can get clear answers to a specific request. Traditionally, two approaches allow such extraction: w The linguistic approach based on the definition of lexico-syntactic patterns. w The statistical approach based on the discovery of key terms. In the context of our application that aims to exploit the information in natural language associated with biological data of biological sequences, the ESTs (Expressed Sequence Tags), we used an extractor key terms based on statistical principles called Automatic Keyphrase Extraction (KEA). Next, we constructed four ontologies from terms extracted to represent the knowledge associated with sequences from the two fungi models Neurospora crassa and Podospora anserina. Finally, with the use of clustering, we show how the terms of ontologies obtained can be used to evaluate the level of gene expression. Keywords: text mining, ontology, texts, terminology extraction, fungi models, Neurospora crassa, Podospora anserina, Expressed Sequence Tags (EST) clustering. Sommaire Introduction générale 1 Partie 1. Etat de l’art Chapitre 1. L’Extraction de Connaissances à partir de Textes 1. Introduction 2. Extraction de Connaissances à partir de Données (ECD) 2.1. Généralités 2.2. Architecture d’un système type d’ECD 2.3. Fouille de données (FDD) 3. De la fouille de données à la fouille de textes 3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT) 3.2. Acquisition itérative et incrémentale des connaissances 3.3. Fouille de textes (FDT). 4. Domaine d’application : La biologie 4.1. Difficultés récurrentes des textes en biologie 4.2. Méthodes de FDT pour la biologie. 4.3. Quelques outils de FDT pour la biologie 5. Conclusion 8 8 8 9 10 11 11 12 13 16 16 20 23 24 Chapitre 2. Les ontologies 1. Introduction 2. Définitions des ontologies 2.1. Du point de vue de la Métaphysique 2.2. Du point de vue de l’ingénierie des connaissances 3. Composants de l’ontologie 4. Typologies d’ontologie 4.1. Typologie selon le degré de formalisme 4.2. Typologie selon l’objet à modéliser 4.3. Typologie selon le degré de granularité 4.4. Typologie selon le type de connaissances à modéliser 5. Représentation des ontologies 6. Utilité des ontologies en ingénierie des connaissances 7. Exemples de ressources ontologiques dans le domaine de la biologie 7.1. Ontologies biologiques et bio-informatiques 7.2. Ontologies des champignons 7.3. Ontologies associées aux expérimentations 8. Conclusion 26 26 26 27 28 29 29 30 31 31 33 34 36 36 37 38 39 Chapitre 3. La conception d’ontologies à partir de corpus de textes 1. Introduction 2. Méthodes et méthodologie de construction des ontologies 2.1. Construction d’Ontologie à partir de zéro 2.2. Construction d’Ontologie par réutilisation 2.3. Construction collaborative 3. Construction d’ontologies à partir de corpus de textes 3.1. Constitution d'un corpus 3.2. Extraction de termes 3.3. Extraction de relations 3.4. Nécessité de l’intervention humaine pour la construction d’ontologie 4. Rôle des statistiques textuelles pour la construction d’ontologie 5. Rôle des grammaires rationnelles pour la construction d’ontologie 6. Editeurs d’ontologies 6.1. Les outils orientés ontologisation 6.2. Les outils orientés conceptualisation 7. Cycle de vie des ontologies 8. Conclusion 42 42 43 44 44 44 45 46 47 48 49 50 53 53 54 55 56 Partie 2. Conception et mise en œuvre Chapitre 4. La conception 1. Introduction 2. Expérimentation 2.1. Collecte des données 2.2. Structure des données d’expression : Les ESTs 2.3. Extraction des termes candidats 2.4. Résultats de l’extraction des termes 2.5. Exploitation des termes de l’ontologie pour le clustering 3. Conception 3.1. Choix de la méthode de construction de l’ontologie 3.2. Architecture du système 3.3. Le module consultation 3.4. Le module exploitation 3.5. Le module enrichissement 4. Conclusion 0 59 59 59 60 61 69 80 89 89 107 112 112 113 115 Chapitre 5. L’implémentation 1. Introduction 2. Environnement de développement 2.1. Choix du langage de développement 2.2. Choix de l’éditeur de l’ontologie 2.3. Choix du S.G.B.D 3. Description du système 3.1. Interface principale 3.2. Description de la barre de menu 3.3. Cas d’utilisation du système 4. Conclusion 117 117 118 118 119 120 120 121 122 130 Conclusion générale et perspectives 131 Références bibliographiques 133 Annexes 143 Introduction générale Introduction générale Les programmes de séquençage de génomes engendrent en masse de nouvelles données. Ces données sont stockées dans des banques de données qui se sont diversifiées et développées notamment dans le cadre de projets de recherche internationaux. Ainsi, les banques de biomolécule ou de génomes comme EMBL (European Molecular Biology Laboratory) et NCBI (National Center for Biotechnology Information), sont devenues des sources de données indispensables pour la recherche en biologie. Elles constituent la mémoire des données biologiques issues des séquençages, rassemblant les résultats publiés dans la littérature scientifique pour en permettre la diffusion. Ces quantités de données diversifiées, produites par le séquençage complet ou partiel des génomes et aussi par les multiples approches expérimentales associées, conduit le biologiste à faire face à une masse de données, et l’oblige à recourir à des outils informatiques adéquats pour une recherche pertinente et une exploitation optimale des données concernant son domaine. Or, les données de la biologie se caractérisent par leur hétérogénéité car elles sont exprimées généralement en langage naturel (utilisées dans les publications ou dans les descriptions des données d’expérimentation par exemple), elles constituent donc un support de communication dont il est difficile d’extraire automatiquement de l’information. Pour répondre à ce besoin de standardisation, de récentes recherches se sont orientées vers l’utilisation d’une représentation avancée des connaissances : les ontologies. L’utilisation des ontologies est une des solutions envisagées pour fournir un vocabulaire commun pour la description d'un aspect de la biologie, à travers la construction d’ontologies accompagnant des tâches de bioinformatique et de biologie moléculaire. Ceci afin d’offrir aux utilisateurs un accès transparent à ces ressources. 1 Introduction générale Les ontologies ont été largement acceptées par la communauté des biologistes comme moyen de standardisation des termes et des concepts biologiques, mais aussi pour permettre la facilitation de l’échange de ces données entre les bases de données de séquences. Par exemple, les termes de la « Gene Ontology » enrichissent les bases de données moléculaires et permettent la description de fonctions moléculaires, des processus biologiques et des composants cellulaires associées aux séquences nucléiques et protéiques [Fro, 04]. Dès lors, l'accès à ces informations est un enjeu central pour les chercheurs qui peuvent valider leurs hypothèses, voire définir de nouveaux plans d'expérience. Cependant, les résultats renvoyés ne sont pas directement exploitables et nécessitent un important travail d'analyse des documents sélectionnés pour extraire l'information pertinente. Ainsi, la recherche d'information à l'aide de mots-clés offre des performances intéressantes en termes de rapidité de traitement. Ainsi, l’objectif est de fouiller les données d'expression à la lumière des protocoles expérimentaux mis en œuvre. Pour prendre en charge le contexte d'une expérimentation biologique, différentes caractéristiques ont été prises en considération. La première concerne l’échantillon biologique. En effet, les espèces doivent être précisées, mais aussi leur stade de développement et, si besoin, l'organe ou le tissu étudié. Comme les variations spécifiques des conditions de culture agissent sur la morphologie ou le développement spatio-temporel des organismes, ces aspects « conditions de culture » doivent également être pris en charge. Enfin, un dernier biais pourrait provenir des étapes spécifiques du protocole expérimental suivi lors de l'extraction des molécules à séquencer ; la spécificité de cette partie technique a donc également été enregistrée. Dans cette optique, notre travail concerne les données relatives à des champignons microscopiques filamenteux, en particulier, Neurospora crassa et Podospora anserina. Il s’agit d’en exploiter les données associées aux ESTs (Expressed Sequences Tag) qui sont disponibles dans les bases de séquences publiques. 2 Introduction générale Notre contribution porte sur deux volets : 1. La proposition d’un système basé sur une ontologie permettant de faciliter l’exploitation des données relatives aux expériences réalisées sur les deux champignons filamenteux. L’ensemble des termes de l’ontologie du domaine ont été extraits grâce à l’extracteur de termes Automatic Keyphrase Extraction (K.E.A). En s’inspirant des quatre vocabulaires eVoc réalisés pour l’homme et la souris [Kel, 03] et en vue d'exploiter les données d'ESTs associées à plusieurs champignons, nous souhaitons prendre en compte les aspects expérimentaux associés à leur acquisition. Une étude d'expression constitue une mesure de l'expression de l'ensemble des gènes à un temps donné de la vie du champignon. Il est alors nécessaire de décrire le champignon étudié et les spécificités associées s'il s'agit d'un mutant (ontologie « caractéristiques des souches »). Comme les conditions de culture du champignon avant la mesure influencent cette dernière, il est nécessaire de décrire, d'une part le protocole expérimental de la culture (ontologie « conditions de cultures ») et d'autre part, l'étape de croissance atteinte par le champignon au moment de la mesure. Pour spécifier cette étape de croissance, nous avons conçu deux ontologies, l'une décrivant l'aspect temporel (ontologie « étapes du cycle cellulaire ») et l'autre l'aspect spatial (ontologie « types cellulaires »). Pour décrire une donnée d'EST, nous avons alors recours à 4 ontologies parallèles et complémentaires et la liaison entre elles se fera à l'usage, lors de la caractérisation d'un EST par la liste des termes issus de chacune des ontologies. 2. L’utilisation d’une méthode d’apprentissage non supervisé : le clustering dont l’objectif est de procéder à une classification du type regroupement par similitude, est effectué en se basant sur la valeur de la métrique TF×IDF des termes contenus dans les fiches d’EST. Ainsi, les expériences regroupées ensemble correspondent à des termes de valeurs proches ou identiques impliquant des conditions d’expériences quasi-similaires et pouvant être liée à une « activité » biologique de ces expériences. 3 Introduction générale Ce mémoire est organisé en cinq chapitres organisés en deux parties : v La première partie présente l’état de l’art relatif aux domaines en lien avec nos travaux. Elle comprend trois chapitres : Ø Le chapitre 1 : L’Extraction de Connaissances à partir de Textes (E.C.T) Définit les concepts d’extraction de connaissances, de fouille de textes, puis expose les difficultés d’extraction d’information dans les textes biologiques et enfin, décrit quelques unes des méthodes et outils proposés dans la littérature pour tenter de résoudre ces problèmes d’extraction. Ø Le chapitre 2 : Les Ontologies Aborde la notion d’ontologie : son origine, divers définitions d’auteurs, ses composants, ses typologies, ainsi que de l’utilité des ontologies en ingénierie des connaissances et quelques exemples d’ontologies biologiques et bioinformatiques. Ø Le chapitre 3 : La conception d’Ontologies à partir de corpus de textes Donne un aperçu des différents travaux de la littérature en lien avec la construction d’ontologies. Il précise notamment les travaux relatifs à leur construction à partir de textes, ensuite éditeurs d’ontologie et cycle de vie sont présentés. v La deuxième partie décrit la conception et la mise en œuvre de notre application. Elle comprend les deux chapitres suivants : Ø Le chapitre 4 : La conception Détaille d’abord l’expérimentation dans le cadre de notre mémoire à savoir l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types d’extraction manuelle et automatique et commente les résultats obtenus par l’extraction manuelle, l’extraction automatique grâce au logiciel K.E.A et de la nécessité de l’intervention humaine dans ce cas de figure. Ce chapitre 4 Introduction générale comprend aussi la phase de construction de l’ontologie biologique du domaine, en spécifiant la méthode choisie à cet effet. Aussi, la présentation de l’architecture qui exploite cette ontologie en détaillant les différents modules de ce système. Ø Le chapitre 5 : L’implémentation Présente l’environnement de développement de notre application en expliquant le choix des outils utilisés, et la description du système développé par des captures d’écran de ses différentes interfaces. Enfin, les résultats obtenus ont été repris dans une conclusion générale, où quelques orientations et perspectives de continuité des travaux ont été également mentionnées. Les quatre annexes ont été organisées de la façon suivante : Ø Annexe A : Expose des généralités sur les organismes biologiques modèles, en particulier de Neurospora crassa et Podospora anserina, choisis dans le cadre de cette étude en présentant une description de ces derniers, notamment à travers leurs cycles de vie, ainsi qu’une comparaison des deux organismes. Ø Annexe B : Donne une définition des données biologiques manipulées (Expressed Sequence Tags (EST), la procédure d’obtention de ces derniers, présente un aperçu des différentes banques de données existantes. Ø Annexe C : Décrit le détail de la méthode choisie de la construction de l’ontologie (la méthode de l’Université de STANDFORD). Ø Annexe D : Donne les résultats sous formes de graphes de l’extraction automatique des termes-clés pour les deux métriques TF×IDF et Première occurrence pour différentes tailles d’échantillon d’apprentissage. 5 Première Partie Etat de l’Art 5 Chapitre 1 L’Extraction de Connaissances à partir de Textes Plan 1. Introduction 2. Extraction de Connaissances à partir de Données (ECD) 2.1. Généralités 2.2. Architecture d’un système type d’ECD 2.3. Fouille de données (FDD) 3. De la fouille de données à la fouille de textes 3.1. Processus d’Extraction de Connaissances à partir de Textes (ECT) 3.2. Acquisition itérative et incrémentale des connaissances 3.3. Fouille de textes (FDT) 4. Domaine d’application : La biologie 4.1. Difficultés récurrentes des textes en biologie 4.2. Méthodes de FDT pour la biologie 4.3. Quelques outils de FDT pour la biologie 5. Conclusion Chapitre 1. L’Extraction de Connaissances à partir de Textes 1. Introduction Les principes de l’extraction de connaissances à partir de textes ont été introduits afin d'aider les décideurs dans l'analyse des informations issues des sources électroniques. Aussi, différentes techniques automatiques sont proposées pour inférer de nouvelles connaissances, potentiellement utiles, à partir de gros volumes de données textuelles. Ces connaissances correspondent à des modèles ou des relations à priori inconnues mais qui existent de façon implicite dans les textes. L’intérêt des connaissances extraites est validé en fonction du but de l’application. Ainsi, du fait de l'importance croissante du contenu électronique et des médias électroniques pour le stockage et l’échange de documents textuels, un intérêt est apparu de plus en plus croissant, pour des méthodes et des outils qui peuvent aider à retrouver l'information enfouie dans les textes de documents. En effet, le volume des informations disponibles croit de plus en plus vite notamment sur Internet (plus de 80% est sous forme textuelle) [Cha, 04]. Ces informations, sont nombreuses et se présentent sous différentes formes (langages naturels et HTML) et elles ont différents supports (sites Web et bibliothèques numériques). Il devient de plus en plus difficile de trouver des informations correspondant au besoin d’un utilisateur et d’en extraire des connaissances utiles et cachées dans les documents d’où le recours à la fouille de textes. Ce chapitre définit les concepts d’extraction de connaissances et de fouille de textes ainsi que la description de quelques méthodes et outils utilisés pour permettre une meilleure facilitation d’exploitation des connaissances implicites contenues dans les corpus textuels qui dans notre cas concernent le domaine de la biologie. 2. Extraction de Connaissances à partir de Données (E.C.D) 2.1. Généralités L'Extraction de Connaissances à partir de Données (E.C.D), est définie par [Fay, 96] comme : « un processus non trivial d’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données ». 8 Chapitre 1. L’Extraction de Connaissances à partir de Textes L’ECD est un processus d’extraction de connaissances à partir de données. Il consiste à analyser des données brutes pour en extraire des connaissances exploitables. Ces dernières vont permettre à un expert d’avoir une vision synthétique d’un domaine donné. Le processus est dirigé par un analyste qui selon ses objectifs va appliquer des méthodes de fouille de données (FDD) sur des données préalablement sélectionnées pour déduire des modèles du domaine. D’après Fayyad [Fay, 96], le processus d’ECD peut être divisé en plusieurs étapes : o La sélection, permet de créer un ensemble de données à étudier, o Le prétraitement, vise à enlever le bruit et à définir une stratégie pour traiter les données manquantes, o La transformation, où l’on recherche les meilleures structures pour représenter les données en fonction de la tâche, o La fouille de données, la fouille proprement dite est la définition de la tâche : classification, recherche de modèles,… et la définition des paramètres appropriés, o L’interprétation et l’évaluation, pendant lesquelles les patrons extraits sont analysés. La connaissance qui en est ainsi déduite est alors stockée dans la base de connaissances. 2.2. Architecture d’un système type d’ECD Selon Ghalamallah [Gha, 09], un système d’ECD s’articule autour des composantes suivantes : o Une ou plusieurs bases de données et leurs systèmes de gestion, pour le traitement des masses de données volumineuses. o Une base de connaissances qui permet à la fois la gestion des connaissances et la résolution des problèmes liés au domaine des données. 9 Chapitre 1. L’Extraction de Connaissances à partir de Textes Le système utilise une base de connaissances (par exemple une ontologie du domaine) qui est enrichie grâce aux nouvelles connaissances inférées par le système. o Un système FDD pouvant s’appuyer sur des techniques symboliques comme l’extraction des règles d’association, la classification par treillis de Galois, ou l’induction par des arbres de décision. o Et une interface se chargeant des interactions avec l’analyste et de la visualisation des résultats. L’analyste et l’expert sont chargés de guider les recherches et de valider les connaissances extraites. Figure 1.1 Architecture type d’un système d’E.C.D. 2.3. Fouille de données Il existe souvent une confusion entre les concepts Fouille de Données (FDD) et l’ECD, certains auteurs les considèrent comme synonymes. Or, la FDD (ou le Data Mining en anglais) n’est qu’une des étapes du processus d’ECD. Elle se réfère souvent à l’ensemble des outils et méthodes permettant d’accéder aux donnés et de les analyser afin d’en extraire des modèles implicites, en prévision d’une utilisation future. La fouille de données ou le Data Mining, (DM) est l’ensemble des méthodes et techniques destinées à l’exploration et l’analyse de bases de données informatiques, de façon automatique ou semi-automatique, en vue de détecter dans ces 10 Chapitre 1. L’Extraction de Connaissances à partir de Textes données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l’essentiel de l’information utile [Tru, 05]. 3. De la fouille de données à la fouille de textes Par analogie avec l’extraction de connaissances à partir de données (ECD), la « découverte de connaissances à partir de bases de données textuelles » (DCT) [Had, 02] ou « l’extraction de connaissances à partir de textes » (ECT) [Che, 04] ou encore en anglais le « Knowledge Discovery in Textual Databases » (KDT) [Fel, 95], est un domaine qui vise à analyser de grandes collections de documents non structurés dans le but d'extraire des modèles (ou connaissances) intéressants, non triviaux et potentiellement utiles. 3.1. Processus d’Extraction de Connaissances à partir de Textes Figure 1.2 Chaîne de traitement dans un processus d’E.C.T. Un texte est considéré comme une entité porteuse d’une information qu’il faut préparer, représenter et organiser pour utiliser des outils de fouille de données et valider les résultats de la fouille. La transformation des données textuelles en connaissances se compose donc de trois principales étapes [Bou, 08]: (1) La modélisation du contenu des textes ; (2) Les outils de fouille de données proprement dits ; (3) Le module d’analyse des résultats et leur validation. 11 Chapitre 1. L’Extraction de Connaissances à partir de Textes Durant l’étape de modélisation du contenu, le texte est sélectionné et prétraité. La phase de prétraitement peut être plus ou moins élaborée : elle peut inclure l’élimination de mots vides (mots grammaticaux) ou une normalisation plus poussée des textes dans le cas d’un corpus plus technique. Ainsi, le choix des unités d’analyse peut faire appel aux connaissances linguistiques (extraction des termes, des relations sémantiques entre eux) ou simplement statistique, avec la recherche des n-grammes dans les textes (séquences de mots adjacents qui se répètent dans le corpus). Les deux techniques peuvent être combinées lorsqu’il s’agit de choisir, parmi les unités extraites, celles qui ont un poids discriminant (indexation automatique). Cette modélisation permet l’extraction de données à partir des textes sous une forme de représentation de type : un texte = {un ensemble de mots-clés}. C’est une représentation communément utilisée en recherche d’information car cette représentation permet d’utiliser, par la suite, des outils de FDT. [Bou, 08] De la même façon que pour un processus d’ECD, les outils de FDT constituent le module calculatoire d’un système d’ECT. Les algorithmes de fouille de données ont démontré par le passé leurs capacités à traiter de grandes masses de données, ce qui permet d’envisager de les réutiliser et de les adapter pour traiter les données très volumineuses extraites des textes. Par conséquent, l’utilisation des techniques existantes en fouille de données semble intéressante dans un processus de fouille de textes. [Bou, 08] La contribution de l’analyste est indispensable pour les étapes d’analyse et de validation des connaissances potentielles extraites car ces deux étapes ne peuvent pas se faire de façon automatique. Le processus d’ECT est semi-automatique. Ce n’est qu’une fois les résultats validés qu’ils prennent le statut de connaissances. Ces connaissances peuvent alimenter une base de connaissances ou être exploitées à nouveau par le processus de ECT afin d’affiner la modélisation des textes. Nous appelons, par la suite, cette base de connaissances l’ontologie du domaine. [Bou, 08] 3.2. Acquisition itérative et incrémentale des connaissances Le processus d’ECT n’est pas linéaire comme le suggère à première vue la figure 1.2. Il est possible d’effectuer un retour entre deux ou plusieurs étapes 12 Chapitre 1. L’Extraction de Connaissances à partir de Textes successives de la chaîne de traitement afin d’améliorer le résultat de chaque étape et d’affiner, au final, le résultat du processus. Cet aspect indique le caractère itératif du processus d’ECT [Che, 04]. L’ECT est aussi un processus alimentant un système à base de connaissances : les connaissances extraites sont stockées dans la base pour être réutilisées dans d’autres applications et mises à jour le cas échéant. Chaque étape du processus de fouille de textes s’appuie sur l’étape qui la précède. La chaîne de traitement pour le processus de FDT est incrémentale. Les éléments d’information identifiés dans une étape servent à enrichir l’étape suivante et ainsi de suite [Che, 04]. La chaîne de traitement pour le processus d’ECT décrite rend le travail de l’analyste efficace en lui donnant accès prioritairement à des connaissances rares et/ou potentiellement nouvelles. L’analyste doit avoir le rôle de prise de décision finale pour valider ou pas les connaissances extraites, filtrées et jugées pertinentes par rapport au domaine des textes fouillés. En cela, le processus de ECT se démarque du processus classique de ECD qui place l’analyste au centre du processus pour effectuer toutes les opérations de prétraitement des données, d’interprétation et de validation de connaissances extraites à partir de données [Che, 04]. 3.3. Fouille de textes Tout comme la fouille de données (FDD) une confusion subsiste entre l’expression : extraction de connaissances à partir de textes (ECT) et la fouille de textes (FDT) ou « Text Mining » (TM) qui en est une étape centrale. La FDT suggère qu’il s’agit de l’exploration de textes dans le but de retrouver l’information utile enfouie dans le texte. Quelques définitions citées ci-après explicitent le concept : o « La fouille de textes (ou text mining) peut être définie comme l’application de méthodes calculatoires et de techniques sur des données textuelles dans le but de retrouver l’information pertinente, intrinsèque et la connaissance précédemment inconnue » [Dop, 07]. o « Le texte mining est définit comme étant le Data Mining sur des données textuelles » [Nas, 01]. 13 Chapitre 1. o L’Extraction de Connaissances à partir de Textes « La fouille de textes doit prospecter des pépites de nouvelles connaissances dans les montagnes de textes qui sont devenues accessibles aux recherches sur ordinateur grâce à la révolution de l'information et à l'interconnexion des réseaux » [Luc, 00]. Il ressort de ces définitions que la fouille de textes ou le text mining peut être vu comme un champ d’application du « Data Mining » (DM) aux textes ou du « Knowledge Discovery in Databases » (KDD) aux textes. Le text mining réfère ainsi à l’ensemble des techniques et méthodes du Data Mining, en vue de retrouver, dans les textes de documents de grandes bases de données textuelles, l’information pertinente, utile et précédemment inconnue. La FDT fait appel principalement à deux disciplines à savoir la statistique et la linguistique. Ces deux disciplines s’intéressent à l’analyse de texte à différents niveaux qui sont les suivants : o Approche linguistique Au plan linguistique, plusieurs niveaux d’analyse sont considérés : w L’analyse syntaxique qui permet de définir les unités textuelles de base et qui s’intéresse à la place relative de chaque mot. Certaines mesures utiles en sont issues : placé avant, placé après, tant de mots maximum, etc. [Khe, 06] w L’analyse lexicale s’intéresse à la terminologie (origines des mots, relations, inclusions, synonymies, etc.). [Khe, 06] w L’analyse morphologique s’occupe des variations dans la forme des mots (orthographes, radicaux, suffixes, préfixes, troncatures, inflexions, etc.). Elle manipule les morphèmes (mots simples, radicaux, dérivations, racines anciennes : grec, latin). [Khe, 06] 14 Chapitre 1. L’Extraction de Connaissances à partir de Textes w L’analyse sémantique s’intéresse à la notion de contenu donc au sens, aux concepts véhiculés par les textes et aux réseaux qui les unissent. [Khe, 06] Approche statistique o Coté statistique plusieurs décompositions sont proposées en fonction de la nature des méthodes : w Les méthodes quantitatives basées essentiellement sur les dénombrements, corrélations, distributions, associations. [Jou, 03] w Les méthodes exploratoires et notamment l’analyse de données avec une approche plus qualitative. [Jou, 03] w Les méthodes relationnelles avec la théorie de graphes, les réseaux de neurones, les réseaux bayésiens. [Jou, 03] Vis à vis des fonctionnalités recherchées, la découverte de modèles endogènes, a priori inconnus, s’appuie sur quatre types d’approches complémentaires : w Une approche descriptive issue de la statistique descriptive, de l’analyse des données et des représentations graphiques. w Une approche structurante se basant sur les méthodes de classification automatique supervisées (classes prédéfinies, représentants de classes) ou non supervisées (hiérarchies, regroupements), sur la reconnaissance des formes et l’apprentissage automatique [Jou, 03]. w Une approche explicative qui permet de faire le lien entre faits à expliquer et variables explicatives (analyses multidimensionnelles [Jou, 03]) et permet aussi de catégoriser de nouveaux éléments en fonction de classes prédéfinies. 15 Chapitre 1. L’Extraction de Connaissances à partir de Textes w Une approche prédictive qui est tournée vers l’avenir, le composant temps y jouant parfois un rôle important. Elle conduit à la recherche de séquences (évolutions absolue ou relative, trajectoires, stratégies, …) par l’analyse factorielle multiple (AFM) et à la prédiction de certains comportements (achat, panne, développement, rupture, …) par la recherche d’associations [Jou, 03]. 4. Domaine d’application : La biologie L'importance de la FDT pour la biologie s'est accélérée en réponse à l'avènement des expérimentations biologiques à haut, voire à très haut débit. Des exemples d'application de FDT aux données biologiques incluent la recherche automatisée dans un ensemble de gènes impliqués dans une expérimentation, l'annotation de listes de gènes avec des concepts issus de la « Gene Ontology », l'amélioration de la recherche d'homologie, la gestion des résultats de recherche dans la littérature, l'aide à l'entretien de bases de données et le peuplement de bases de données [Lor, 09]. En effet, la FDT s'insère dans l'analyse des données bioinformatiques de deux manières, ou plutôt à deux moments distincts. D'une part au début de la chaîne, en aidant à l'analyse des résultats générés par les expériences, assistant ainsi les chercheurs à conduire un projet de l'expérimentation à la publication, et d'autre part, à la fin de la chaîne, en aidant le scientifique à exploiter le flux de publications issues de Medline1 par exemple (une moyenne de 1875 nouvelles entrées par jour en 2005) [Lor, 09]. 4.1. Difficultés récurrentes des textes en biologie Un des principaux problèmes qui fait de l’extraction d’information en biologie une tâche complexe est l'absence de nomenclatures et de conventions d'écriture claire. Pour de très nombreux phénomènes en biologie, il n'existe aucun 1 MEDLINE est une base de données bibliographique qui couvre tous les domaines médicaux 16 Chapitre 1. L’Extraction de Connaissances à partir de Textes standard commun à l'appellation d'entités nouvellement élucidées et différentes communautés peuvent utiliser la même dénomination pour représenter deux entités distinctes. Plusieurs niveaux de complexité s'additionnent. D'une part, les conventions adoptées diffèrent entre les différents domaines d'expertise et les communautés qui composent la biologie. D'autre part, les nomenclatures établies pour certains types de concepts biologiques (par exemple, les allèles, les gènes et les protéines) sont différenciées selon l'organisme biologique étudié [Oli, 02]. Il est à noter qu'il existe des tentatives d'harmonisation de la nomenclature dans des niches restreintes telles que les bases de données terminologiques « HUGO » et « Flybase2 » qui définissent respectivement les standards des noms de gènes humains et de la drosophile. Néanmoins, ceci ne reste que des recommandations à l'intention des scientifiques et aucune obligation d'adoption de ces standards n'est à ce jour imposée. La validation du respect d'une nomenclature spécifique lors de la demande de parution d'un article s'effectue à la discrétion du journal scientifique concerné. Finalement, le nombre d'entités biologiques est très grand. Par exemple, et dans le cadre très restreint des gènes humains, « HUGO » recense au premier trimestre 2007 environ 24700 noms officiels de gènes, 29300 alias et 2970 dénominations obsolètes. En théorie, les termes et les concepts manipulés devraient être mono-référentiels, chaque terme ne devant correspondance qu'à un seul concept et vice-versa. En pratique, les documents regorgent d'ambigüités. o Homonymie Un même nom peut se référer à différentes entités. Ce problème est fréquemment observé dans la dénomination d'objets biologiques non fonctionnellement liés entre différentes espèces animales ou entre différentes communautés scientifiques. Un autre exemple d'homonymie en biologie est le nom 2 http ://flybase.bio.indiana.edu/ 17 Chapitre 1. L’Extraction de Connaissances à partir de Textes partagé à la fois par les gènes et les protéines. Il est parfois complexe de savoir si le nom est celui d'un gène ou d'un produit du gène. Il est à noter que la tâche de désambigüisation des homonymes est ardue, même pour un lecteur humain. D'après une étude menée par [Hat, 01], trois annotateurs spécialistes du domaine de la biologie moléculaire ne se sont accordés que 78% de fois sur la forme effective protéique, ARN ou gène des entités nommées à partir d'un corpus conséquent d'articles du domaine. Quelques conventions typographiques existent afin de distinguer certaines formes classiques d'homonymie et reposent sur la différenciation majuscule/minuscule et la mise en italique. Néanmoins peu de journaux en ligne respectent ces conventions typographiques et préfèrent réserver l'utilisation des italiques et des majuscules à d'autres fins, et notamment à la mise en relief du texte. De plus, les styles souligné, gras et italique sont très souvent perdus lors du formatage des publications dans les bases de données bibliographiques. [Tua, 04] ont quantifié ces ambigüités pour les gènes au sein des ressources lexicales Mouse Genome Informatics, spécialisée dans la terminologie relative à la souris, FlyBase, pour la drosophile, WormBase, pour le vers, et Saccharomyces Genome Database, pour la levure. Les résultats montrent qu'entre 0 et 10% des noms au sein de chaque terminologie présentent des ambigüités. Le nombre d'ambiguïtés par nom allant de 2 à 10 et la plupart étant due à la présence de synonymes et autres alias et non à cause des noms officiels. o Synonymie Il est courant qu'une molécule biologique soit nommée en fonction de sa fonction biologique particulière, à différents niveaux hiérarchiques (exemple: une « ATP dependent RNA helicase » est un sous type de « RNA helicase »), de sa similarité de séquence ou de la présence de motifs de séquence particuliers (exemple : « DEAD/H Box-5 »), sa masse moléculaire (exemple: « protein p68 »), ou encore de la combinaison de toutes ces situations (exemple : « RNA helicase p68 »). Néanmoins ces différentes nomenclatures ne sont pas exclusives et très généralement cohabitent afin de donner plusieurs noms synonymes à une molécule. 18 Chapitre 1. L’Extraction de Connaissances à partir de Textes Dans le cas des protéines, il est d'usage de leur donner le nom des gènes qui les codent. Les noms de protéines basés sur les gènes d'origine sont spécifiques à un organisme. En revanche, les noms de molécules contenant des références à des fonctions biologiques ou à des masses moléculaires sont généralement utilisés indépendamment de la taxonomie. Par exemple : « DRH1 » et « DBP2 » sont les noms d'une même protéine mais produite soit par A. Thaliana soit par S. Cerevisiae respectivement [Lor, 09]. o Acronymie Une variation de termes banale et partagée par l'ensemble des documents à caractère technique est l'utilisation d'acronymes. Il est toutefois important de signaler qu'il n'existe aucune règle stricte pour définir un acronyme en biologie à la différence d'autres domaines scientifiques. La définition d'un acronyme peut entrainer différents problèmes précédemment relevés : tout d'abord la variabilité des formes synonymes d'acronymes. Par exemple : « NFKB » et « NF Kappa B » sont deux formes acronymiques concurrentes de la protéine « Nuclear Factor-Kappa B » et retrouvées de manière indifférentes dans les textes. D'autre part la génération d'un acronyme peut créer une ambigüité homographique. Par exemple : l'acronyme « GR » sert à définir deux protéines distinctes, le « Glucocorticoid Receptor » et la « Glutathione Reductase ». o Evolution des nomenclatures De nouvelles entités biologiques sont constamment découvertes et nommées. A un instant donné le contenu des banques de données terminologiques ne peut correspondre aux dernières évolutions de la nomenclature en cours. De nombreux noms d'entités biologiques sont aussi supprimés de la nomenclature officielle lorsque ceux-ci sont jugés obsolètes. Ceci est particulièrement vrai lorsque la dénomination d'une entité repose sur des propriétés fonctionnelles qui par la suite ont été jugées erronées ou pas assez précises. Ces anciennes dénominations peuvent aussi être réutilisées pour nommer de nouvelles entités distinctes. 19 Chapitre 1. L’Extraction de Connaissances à partir de Textes 4.2. Méthodes de FDT pour la biologie Dans cette section, seront détaillées les méthodes de la FDT utilisées dans le domaine de la biologie pour l’identification des termes et des interactions entre eux, et seront présentés par la suite quelques outils basés sur ces techniques. o Identification des termes · Méthodes basées sur les dictionnaires Ces méthodes utilisent des ressources terminologiques existantes (dictionnaire, lexique, thésaurus…) dans le but de localiser les occurrences des termes dans les textes. L’application de la version simple de ces méthodes, c'est-àdire faire la correspondance directe entre les entrées du dictionnaire et les entités textuelles ne donne pas de résultats satisfaisants du point de vue précision et rappel. Ces mauvais résultats sont dus essentiellement à des problèmes d’homonymie (en anglais par exemple, des mots communs comme ‘and’, ‘by’ ou ‘for’ sont détectés comme noms de gènes) et des problèmes de variations linguistiques liés à (i) la ponctuation (mdm-2 et mdm2), (ii) l’utilisation de l’alphabet grec (p53alpha et p53a), et (iii) l’ordre des mots (integrin alpha4 et alpha4 integrin) [Khe, 06]. Afin de remédier à ces problèmes, beaucoup d’améliorations ont été ajoutées à ces méthodes telles que l’utilisation de dictionnaire de synonymes, le filtrage des mots vides et le traitement des variations. [Kra, 00] proposent de coder les dictionnaires et les textes avec le code nucléique (l’alphabet formé de 4 lettres {A, C, G, T}) et d’utiliser l’algorithme BLAST utilisé pour l’alignement des séquences ADN pour identifier les termes qui ont une similarité forte. L’expérience menée sur un corpus de test et la base GenBank a donné de bons résultats. · Méthodes basées sur les règles Ces méthodes reposent sur la création (manuelle) de règles d’extraction basées sur les particularités spécifiques à une classe de termes. Ces particularités peuvent être (i) morphologiques : les mots se terminant par –ase et –in 20 Chapitre 1. L’Extraction de Connaissances à partir de Textes peuvent être considérés comme des enzymes ou des protéines et (ii) orthographiques : les termes vérifiant l’expression régulière [az] + [0-9] peuvent être considérés comme des gènes (une séquence de lettres suivi d’une séquence de chiffres). [Fuk, 98] propose une méthode pour la reconnaissance automatique des noms de protéines : Ils exploitent le fait que les noms des protéines sont souvent en majuscules et comportent des caractères spéciaux et des chiffres. Quant à [Hob, 00], il a adapté un outil de reconnaissance automatique d’entités nommées standard (FASTUS [Hob, 97]) pour la reconnaissance des noms de gènes et de protéines. Cet outil est basé sur une cascade de transducteurs à états finis qui permettent de reconnaître des unités complexes (par exemple : « 3,4-dehydroproline »). D’autres utilisent des règles d’associations qui permettent de mettre en évidence des corrélations entre des éléments textuels. Un corpus prétraité est utilisé pour l’extraction de ces règles qui sont ensuite présentées à un expert du domaine pour les valider. Une fois validées, les règles d’associations sont classifiées selon des mesures probabilistes et appliquées sur les textes afin d’extraire des termes du domaine. [Che, 05] présentent une méthodologie de fouille de textes biologiques en utilisant les règles d’associations. · Méthodes basées sur les techniques d’apprentissage Comme pour toutes les méthodes basées sur les algorithmes d’apprentissage, ces méthodes ont pour principe de détecter des particularités caractérisant une classe de termes à partir de données d’apprentissage (corpus déjà traité manuellement en affectant les termes à des classes prédéfinies). A chaque classe, l’algorithme affecte des caractéristiques souvent orthographiques (c’est-à-dire une combinaison de lettres et de chiffres, terme commençant par une lettre majuscule) ou morphosyntaxiques (les patrons d’extraction). Ces informations sont ensuite utilisées par des algorithmes de classification standard qui classent les termes dans leurs catégories adéquates. Plusieurs expériences ont été réalisées en utilisant différents algorithmes de classification, par exemple [Col, 00] se sont basés sur les chaînes cachées de Markov 21 Chapitre 1. L’Extraction de Connaissances à partir de Textes (HMM) alors que [Kaz, 02] ont utilisé les machines à vecteurs de support (SVM). Ces méthodes sont gourmandes en temps et en ressources; en outre, elles sont confrontées à un autre problème qui est le manque de corpus déjà traité pour effectuer leur apprentissage. En effet, la majorité des expériences sont réalisées sur le même corpus GENIA [Kim, 03]. Le projet pluridisciplinaire CADERIGE [Néd, 01] fait intervenir plusieurs équipes françaises de compétences différentes (biologie, apprentissage et TALN) dans le but de concevoir des outils d’analyse de données biologiques à partir des textes et en se basant sur les techniques d’apprentissage. Un éditeur d’annotation a été développé et une méthode d’apprentissage de patrons d’extraction a été mise au point. o Identification des interactions L’explication de phénomènes biologiques, se base généralement sur la détection d’une interaction entre gènes, protéines ou molécules. Bien qu’une partie de ces interactions soit stockée dans des bases de données, une grande partie d’entre elles est exprimée en langue naturelle et donc stockée dans les publications du domaine. Plusieurs méthodes de fouille de textes biomédicaux pour l’extraction de ces interactions ont été proposées. Pour la détection d’interaction de types gène-gène ou gèneprotéine, [Néd, 04] propose une méthode composée de trois étapes : (1) la sélection d’un ensemble de fragments de textes contenant ce genre d’interactions, (2) l’utilisation d’algorithmes d’apprentissage sur ces fragments pour définir des règles d’extraction et (3) l’application des règles sur les documents pour extraire les interactions. [Sha, 02] propose une méthode d’extraction de relations fonctionnelles entre les gènes. L’hypothèse consiste à dire que si deux gènes apparaissent régulièrement dans des documents traitant le même phénomène (même séparément), alors une relation pourrait exister entre ces deux gènes. Ils font appel à des modèles statistiques qui décrivent la fréquence des mots dans les documents afin 22 Chapitre 1. L’Extraction de Connaissances à partir de Textes de les classifier selon des thèmes pour déduire ensuite les fonctions des gènes qui apparaissent dans ces documents. [Rin, 00] propose un système d’extraction d’informations sur les relations qu’entretiennent gènes, médicaments et cellules. Il s’agit de trouver des relations du type : ‘Dans les cellules de type C, l’expression du gène G est inhibée (ou activée) par le médicament M’, ou du type : ‘Les cellules du type C acquièrent une résistance (ou une sensibilité) au médicament M quand le gène G s’exprime’. Le système est basé sur la reconnaissance de la cooccurrence dans une même phrase d’un gène, d’un type cellulaire et d’un médicament. D’autres travaux sur le même thème sont présentés dans [Sta, 02] et [Sha, 03]. Les résultats de ces systèmes permettent de créer des réseaux d’interaction entre gènes et protéines qui peuvent jouer un rôle important dans l’interprétation des résultats d’une expérience. 4.3. Quelques outils de FDT pour la biologie o Medminer : est un système qui a été conçu spécialement pour les biologistes travaillant sur l’expression des gènes. Il permet d’effectuer des recherches sur plusieurs gènes à la fois dans la base documentaire PubMed afin de trouver les corrélations entre eux. Les résultats renvoyés par le moteur de recherche de PubMed sont ainsi filtrés, classifiés dans des catégories prédéfinies par le biologiste. Le filtrage est fait, soit par le calcul des fréquences des termes dans les documents, soit par le calcul des co-occurrences entre les termes. o PubMiner : combine des techniques d’apprentissage (HMM et SVM) avec des techniques de TALN pour traiter les résumés de la base PubMed afin d’en extraire des entités nommées (gène, protéine) et de possibles interactions entre elles [Eom, 04]. Ce système permet la visualisation des résultats sous la forme d’un graphe, où les nœuds représentent les noms des gènes et des protéines et les arcs représentent les interactions possibles ; l’utilisateur garde toujours un lien entre le graphe et les documents textes traités. 23 Chapitre 1. L’Extraction de Connaissances à partir de Textes o Textpresso : [Mul, 04] propose un système d’extraction et de recherche d’informations pour les articles du domaine biomédical. TextPresso se base sur une ontologie définie pour décrire les connaissances présentes dans les textes. Il identifie les termes (instances des concepts de l’ontologie) en utilisant des expressions régulières et les encadre avec des balises XML directement dans le texte. Il offre aussi un ensemble d’interfaces dédiées pour interroger efficacement les annotations en se basant sur l’ontologie. Notons que Textpresso (i) intègre les annotations (XML) directement dans le texte ce qui rend leur utilisation par un autre système très difficile et (ii) nécessite la définition d’un nombre très grand d’expressions régulières (des milliers) pour pouvoir extraire les termes pertinents. 5. Conclusion Dans ce chapitre, nous avons introduit de façon générale les notions relatives à l’extraction de connaissances et la fouille de données textuelles. Puis nous avons essayé de décrire les principales difficultés dans les textes biologiques et les différentes solutions (méthodes et outils) proposées par la littérature afin de les résoudre. Cette quantité importante et hétérogène d’informations contenue dans les textes biologiques écrites généralement en langage naturel à fait « naître » un besoin de standardisation à travers l’établissement de terminologies et de vocabulaires communs pour capturer les concepts biologiques. Cette description des données et des hiérarchies pour classifier les concepts est appelée « ontologie ». 24 Chapitre 2 Les Ontologies Plan 1. Introduction 2. Définitions des ontologies 2.1. Du point de vue de la Métaphysique 2.2. Du point de vue de l’ingénierie des connaissances 3. Composants de l’ontologie 4. Typologies d’ontologie 4.1. Typologie selon le degré de formalisme 4.2. Typologie selon l’objet à modéliser 4.3. Typologie selon le degré de granularité 4.4. Typologie selon le type de connaissances à modéliser 5. Représentation des ontologies 6. Utilité des ontologies en ingénierie des connaissances 7. Exemples de ressources ontologiques dans le domaine de la biologie 7.1. Ontologies biologiques et bio-informatiques 7.2. Ontologies des champignons 7.3. Ontologies associées aux expérimentations 8. Conclusion Chapitre 2. Les Ontologies 1. Introduction Les années 80 ont vu le développement de nombreux Systèmes Experts (SE) réalisant des tâches variées (ex : diagnostic, conception, planification, maintenance) dans des domaines également variés (ex : médecine, ingénieries mécanique et électronique, robotique, finance). L’expérience de leur développement a toutefois montré que la construction d’une Base de Connaissances (BC) était un processus complexe et nécessitant un temps considérable. Le souhait des développeurs est dès lors de pouvoir réutiliser et partager des BCs ou, tout le moins, des parties de la BC. Cette question de la réutilisation et du partage de BCs est donc difficile et implique plusieurs dimensions. C’est ainsi, qu’au début des années 90, des chercheurs réunis au sein du projet américain « Knowledge Sharing Effort », soutenus notamment par la DARPA (Defense Advanced Research Projects Agency), décident de s’attaquer au problème en privilégiant la représentation explicite du sens. Ils nomment « ontologie » une telle représentation. La définition explicite et la délimitation précise du concept ontologie soulève un questionnement qui est tout à la fois d’ordre philosophique, épistémologique, cognitif et technique. 2. Définitions des ontologies 2.1. Du point de vue de la Métaphysique Ontologie est un terme qui est tout d'abord apparu en Philosophie comme une branche de la Métaphysique qui s'intéresse à l'existence, à l'être en tant qu'être et aux catégories fondamentales de l'existant. En effet, ce terme est construit à partir des racines grecques ontos qui veut dire ce qui existe, l’Etre, l’existant, et logos qui veut dire l’étude, le discours, d’où sa traduction par l’étude de l’Etre et par extension de l’existence [Bah, 06]. L'origine de la notion d'ontologie remonte donc à Aristote (384-322.BC), bien que le terme lui-même soit plus récent. Dans la Métaphysique, il est expliqué que la réalité se présente sous la forme d'individualités uniques et particulières (Platon, Socrate) qu'il faut aborder à partir de concepts généraux (philosophe, homme, être vivant) [Dia, 06]. Pour penser un être existant, il faut définir des propriétés (substance, qualité, 26 Chapitre 2. Les Ontologies quantité, lieu, temps, situation ?), regroupées par Aristote en dix catégories qui, selon lui, appartiennent à la réalité et ne sont pas de simples constructions mentales. Les propriétés ainsi utilisées pour caractériser les concepts ne sont pas sans évoquer les attributs utilisés aujourd'hui dans différents modèles de représentations de connaissances. Le travail sur l'ontologie consiste donc à déterminer ce qui est universel d'un être, par delà ses représentations particulières. Après Aristote, c'est Porphyre, philosophe grec du troisième siècle de notre ère, qui a attaché son nom à l'étude de l'ontologie, à la fois sur un plan religieux et sur un plan « scientifique », en insistant, pour la catégorisation des êtres, sur les traits qui les opposent (catégorisation par identité et différence). On peut y voir l'origine de l'organisation taxinomique en usage dans différents domaines scientifiques. Cette approche des ontologies est reprise par Roche [Roc, 03] dans le système Ontologos ainsi que Bachimont [Bac, 00]. Depuis, différents philosophes et mathématiciens ont travaillé sur la notion d'ontologie et sur le travail de catégorisation, qui lui est connexe. Le courant philosophique reste très présent, et connaît aujourd'hui un regain d'activité. 2.2. Du point de vue de l’ingénierie des connaissances Plusieurs définitions du concept ontologie ont été proposées dans le domaine de l’Intelligence Artificielle. Ces définitions sont souvent des raffinements de définitions déjà proposées et/ou sont complémentaires avec elles. Neeches et ses collègues [Nee, 91] furent les premiers à proposer une définition à savoir : «Une ontologie définit les termes et les relations de base du vocabulaire d’un domaine ainsi que les règles qui indiquent comment combiner les termes et les relations de façon à pouvoir étendre le vocabulaire». En 1993, Gruber [Gru, 93] donne la définition suivante : «Une ontologie est spécification explicite d’une conceptualisation» qui est jusqu’à présent la définition la plus citée dans la littérature en intelligence artificielle. Cette définition a subit des raffinements par l’auteur Borst [Bor, 97] qui définit l’ontologie comme une «Spécification formelle d’une conceptualisation partagée». Ces deux définitions sont regroupées dans celle de Studer [Stu, 98] comme «Spécification formelle et explicite d’une conceptualisation partagée». Pour Guarino & Giaretta [Gua, 95] «Une ontologie est une spécification rendant partiellement compte d’une conceptualisation». Swartout et ses collègues [Swa, 97] la définissent comme suit : «Une ontologie est un ensemble de termes structurés de façon hiérarchique, conçue afin de 27 Chapitre 2. Les Ontologies décrire un domaine et qui peut servir de charpente à une base de connaissances». La même notion est également développée par Gomez [Gom, 04] « Les ontologies visent à capturer les connaissances consensuelles de façon générique afin de faciliter leur réutilisation et leur partage d’une application à une autre et d’un groupe de chercheurs à un autre. Les ontologies sont généralement construites de façon coopérative par des gens localisés à différents endroits ». 3. Composants de l’ontologie Toutes les définitions précédemment citées s’accordent sur le fait que les ontologies fournissent un vocabulaire commun d’un domaine et définissent la signification des termes et les relations entre ces derniers. La formalisation des connaissances de ces ontologies est mis en place grâce à différents types de composants à savoir : concepts (ou classes), propriétés (ou attributs), instances (ou individus), relations et axiomes (ou règles) : Figure 2.1 Composants des ontologies. o Concepts : Sont des notions (ou objets) permettant la description d’une tâche, d’une fonction, d’une action, d’une stratégie ou d’un processus de raisonnement, etc. ils peuvent être abstraits ou concrets, élémentaires ou composés, réels ou fictifs. Habituellement, les concepts sont organisés en taxonomie [Bah, 06]. o Propriétés : Sont les attributs, les caractéristiques des concepts ou des relations. o Instances : Constituent la définition extensionnelle de l’ontologie, elles sont utilisées pour représenter des éléments dans un domaine [Bah, 06]. o Relations : Sont les liens organisant les concepts de façon à représenter un type d’interaction entre les concepts d’un domaine. Elles sont formellement définies 28 Chapitre 2. Les Ontologies comme tout sous ensemble d’un produit de n ensembles, c’est-à-dire R : C1*C2*…….*Cn. o Axiomes : Permettent de définir la sémantique des termes (classes relations), leurs propriétés et toutes contraintes quant à leur interprétation. Ils sont définis à l’aide de formules bien formées de la logique du premier ordre en utilisant les prédicats de l’ontologie [Bah, 06]. 4. Typologies d’ontologie Après avoir défini les différents composants de l’ontologie, la section suivante décrit les différents types d’ontologies les plus courants dans la littérature. Cette classification est en fonction (1) du niveau de formalisme du modèle, (2) des objets qu’elles modélisent, (3) du degré de granularité des connaissances et (4) du type de connaissances à modéliser. 4.1. Typologie selon le degré de formalisme Pour Guarino [Gua, 97] les ontologies peuvent être de natures variables, suivant le type de langage utilisé et donc allant d’un degré de formalisation zéro à une formalisation totale. Quatre distinctions sont mises au jour : o Ontologies informelles : elles sont exprimées en langue naturelle. o Ontologies semi-informelles : elles sont exprimées dans une forme de langue naturelle structurée et limitée. Cela permet d’augmenter la clarté de l’ontologie tout en réduisant l’ambiguïté [Psy, 07]. o Ontologies semi-formelles : elles sont exprimées dans un langage artificiel et défini formellement. o Ontologies formelles : elles sont exprimées dans un langage artificiel disposant d’une sémantique formelle, permettant de prouver des propriétés de cette ontologie. L’intérêt de ces ontologies est la possibilité d’effectuer des vérifications sur l’ontologie : complétude, non-redondance, cohérence, etc. [Psy, 07]. 29 Chapitre 2. Les Ontologies 4.2. Typologie selon l’objet à modéliser Psychés [Psy, 07] propose que la classification peut également se faire en fonction des objets que modélisent les ontologies pour répondre à un objectif précis: Figure 2.2 Classification des ontologies selon l’objet à modéliser. o Ontologies de représentation de connaissances : modélisent les représentations primitives utilisées pour la formalisation des connaissances sous un paradigme donné. o Ontologies de domaine : modélisent les connaissances réutilisables dans des domaines précis. Ces ontologies fournissent les concepts et les relations permettant de couvrir les vocabulaires, activités et théories de ces domaines [Cho, 09]. Les concepts des ontologies de domaine sont souvent des spécialisations de concepts définis dans des ontologies de niveau supérieur. o Ontologies de niveau supérieur (ou générique): modélisent les concepts très généraux auxquels les racines des ontologies de plus bas niveaux devraient être liées. Cependant, il existe plusieurs ontologies de niveau supérieur et qui sont divergentes. Afin de résoudre ce problème, l’organisation de standardisation IEEE tente de développer une ontologie de niveau supérieur qui soit standard. o Ontologies d’applications : modélisent les connaissances requises pour des applications spécifiques. Les ontologies d’applications spécialisent souvent le vocabulaire des ontologies de domaine et des ontologies de tâches [Cho, 09]. o Ontologies de tâches : modélisent les vocabulaires relatifs à une tâche ou une activité générique en spécialisant certains termes des ontologies de niveau supérieur [Cho, 09]. 30 Chapitre 2. Les Ontologies 4.3. Typologie selon le degré de granularité Cette classification des ontologies selon Guarino [Gua, 97] est en fonction du niveau de granularité, c'est-à-dire du niveau de détail des objets de la conceptualisation. Ainsi, selon l’objectif opérationnel de l’ontologie, une connaissance plus ou moins fine du domaine est nécessaire et des propriétés considérées comme accessoires dans certains contextes peuvent se révéler indispensables pour d’autres applications. On peut relever alors deux types de granularités. o Granularité fine : cela correspond à des ontologies très détaillées, possédant un vocabulaire riche capable d’assurer une description détaillée des concepts pertinents d’un domaine [Psy, 07]. o Granularité large : cela correspond à un vocabulaire moins détaillé. Les ontologies de haut niveau ont par exemple une granularité large, car les notions sur lesquelles elles portent peuvent être raffinées par des notions plus spécifiques [Psy, 07]. 4.4. Typologie selon le type de connaissances à modéliser Les ontologies sont classifiées dans la figure 2.3. [Lor, 02] sur la base de leur force d’expression, c’est à dire sur la base de l’information que l’ontologie doit exprimer : Figure 2.3 Typologie des ontologies selon le type de connaissances à modéliser. 31 Chapitre 2. Les Ontologies o Vocabulaires contrôlés : C’est une liste finie de termes, un ensemble de sens lexicaux associés à des traits syntaxiques, morphologiques et sémantiques. o Glossaires : Ce sont des listes de termes avec leurs significations. Les significations sont le plus souvent exprimées par des énoncés en langue naturelle qui sont principalement destinés à des agents humains. o Thesauri : Ils ajoutent aux glossaires la sémantique ressortant des définitions des relations entre les termes (comme la relation de synonymie). Généralement, ils ne fournissent pas la structure hiérarchique explicite, bien que celle-ci puisse être déduite des spécifications de termes plus larges ou plus proches. o Hiérarchies Is-a informelles : Cette catégorie inclut la plupart des ontologies du web. Ce sont des ontologies où une notion vague de généralisation et de spécialisation est fournie bien que ce ne soit pas une hiérarchie stricte de sousclasse (ex : Yahoo !). o Hiérarchies Is-a formelles : Ce sont des ontologies où les concepts sont organisés selon une hiérarchie de sous-classe stricte. Le concept d’héritage est toujours applicable dans ce type d’ontologie. Cette ontologie peut inclure uniquement des noms de classe. o Instances formelles : Les ontologies incluant des relations d’instances formelles sont une extension naturelle des ontologies appliquant une structure de hiérarchie stricte. o Cadres : Ce sont des ontologies dont les concepts sont décrits en terme de propriétés caractéristiques. Le fait d’inclure des propriétés dans la description du concept devient intéressante dans la mesure où l’on peut appliquer le principe d’héritage sur ces propriétés. o Restriction de valeur : Ces ontologies permettent d’appliquer des restrictions aux valeurs associées aux propriétés (ex : nombre maximum de noms pour décrire le concept). 32 Chapitre 2. Les Ontologies o Contraintes de logique générale : Ces ontologies sont celles qui ont la plus grande force d’expression. Par exemple, ces ontologies peuvent être basées sur des équations mathématiques qui utilisent des valeurs d’autres propriétés ou les propriétés peuvent être exprimées comme des énoncés logiques. 5. Représentation des ontologies Penser une ontologie ne peut se faire sans un formalisme pour la représenter afin de décrire les termes d'une ontologie. Il existe divers langages dont les plus connus sont : o XML1 (Extensible Markup Language): est un langage permettant de générer des balises pour la structuration de données et de documents. Il permet la représentation et l’échange de documents semi-structurés. o XML-Schéma : permet de définir la structure, les contraintes, et la sémantique de documents XML. Ce langage n’est pas vu comme un langage d’ontologies car il a été créé pour vérifier la structure de documents XML. Les primitives qu’il met en place sont plutôt orientées application que concept. En effet, la sémantique définie dans le document est interprétable dans le contexte de l’opération faite sur le document mais ne permet pas d’établir des inférences en dehors de ce contexte. XML et XML-schéma sont considérés comme des langages définissant le format de « message » alors qu’un langage d’ontologies a pour but de « représenter » la connaissance. o RDF 2 (Resource Description Framework): permet d’encoder, d’échanger et de réutiliser des métadonnées structurées. Il a été créé pour gérer les métadonnées de documents XML mais peut également être utilisé pour des ontologies. Il permet de définir des ressources avec des propriétés et des états. o RDF-Schéma : définit les relations entre ces ressources. Le pouvoir sémantique de ces deux langages est limité car les axiomes ne peuvent pas être directement décrits. Le type des relations (symétrique, transitive, …etc.) ne peut être spécifié. 1 2 www.w3.org/XML www.w3.org/RDF/ 33 Chapitre 2. Les Ontologies o OWL3 (Web Ontology Language) : doit permettre de représenter des ontologies, en particulier sur le Web. Il est fondé sur la syntaxe RDF/XML et est dédié totalement à la représentation des ontologies. OWL est destiné à être utilisé lorsque les informations contenues dans les documents doivent être traitées par des applications logicielles, c'est-à-dire lorsqu’elles ne sont pas simplement montrées à l’utilisateur. Il existe trois sous-langages d’OWL offrant des capacités d’expression croissantes : OWL Lite, OWL DL et OWL Full. o Le langage du projet OBO (Open Biomedical Ontologies) : Le projet OBO est une initiative d'un groupe de développeurs d'ontologies dans le domaine biomédical, qui s'est mis d'accord sur un nombre de principes spécifiant les bonnes pratiques pour le développement d'ontologies biomédicales. Les principes édictés reposent sur l'objectif d'interopérabilité entre les différentes ontologies développées. Un langage formel commun est fourni pour la représentation des ontologies. Il est conçu pour permettre la prise en compte de plusieurs métadonnées, et comprend un mécanisme d'historisation. Parmi les principes édictés par le projet OBO citons : 1. Chaque ontologie doit avoir un identifiant unique au sein de OBO; 2. Chaque ontologie doit inclure des définitions textuelles pour chacun de ses termes ; 3. Les ontologies au sein d’OBO doivent être développées de façon collaborative. 6. Utilité des ontologies en ingénierie des connaissances Plusieurs chercheurs se sont intéressés à la finalité des exploitations des ontologies. Dans ce qui suit est présentée l’utilité des ontologies au sein des systèmes à base de connaissances (SBC) et du Web Sémantique : o Les connaissances du domaine d’un SBC : Les ontologies servent à représenter les connaissances du domaine d’un SBC. En particulier, elles servent de squelette à la représentation des connaissances du domaine dans la mesure où elles 3 www.w3.org/OWL/ 34 Chapitre 2. Les Ontologies décrivent les objets, leurs propriétés et la façon dont ils peuvent se combiner pour constituer des connaissances du domaine complètes. o La communication : Les ontologies peuvent intervenir dans la communication entre personnes, organisations et logiciels [Usg, 96]. En effet, les ontologies servent par exemple, à créer au sein d’un groupe ou d’une organisation un « vocabulaire conceptuel commun ». Dans ce cas, on est plutôt dans le cadre d’une ontologie informelle. Dans le cas de la communication entre personnes et systèmes, l’ontologie est formelle et sert en général une tâche précise dans le SBC ou le système d’information. L’ontologie est un puissant moyen pour lever les ambiguïtés dans les échanges. o L’interopérabilité : le développement et l’implantation d’une représentation explicite d’une compréhension partagée dans un domaine donné, peut améliorer la communication, qui à son tour permet une plus grande réutilisation, un partage plus large et une interopérabilité plus étendue [Usg, 96]. L’interopérabilité est donc une spécialisation de la communication qui permet de répertorier les concepts que des applications peuvent s’échanger même si elles sont distantes et développées sur des bases différentes. o L’aide à la spécification de systèmes : La plupart des logiciels conventionnels sont construits avec une conceptualisation implicite et que la nouvelle génération des systèmes utilisant les travaux en intelligence artificielle devrait être basée sur une conceptualisation explicitement représentée [Miz, 96]. En effet, l’ontologie fournit une classification des objets que doit manipuler le système. o L’indexation et la recherche d’information : Dans le Web Sémantique, les ontologies y sont utilisées pour déterminer les index conceptuels décrivant les ressources sur le Web. o Le partage des connaissances : En annotant les ressources du Web ou d’une organisation sur la base d’un vocabulaire commun s’adossant à une ontologie, il est possible de rendre l’accès au Web plus performant et mieux adapté aux besoins des usagers. 35 Chapitre 2. Les Ontologies 7. Exemples de ressources ontologiques dans le domaine de la biologie Le recours à des vocabulaires contrôlés ou à des ontologies s’est fait rapidement sentir pour capturer les concepts biologiques présents en vue du traitement automatique des annotations généralement écrites en langage naturel. La construction, la fusion, l'utilisation et la réutilisation des ontologies constituent quelques-uns des défis actuels en bioinformatique : 7.1. Ontologies biologiques et bio-informatiques o Le projet GO (Gene Ontology) : vise à fournir un vocabulaire structuré pour des domaines spécifiques biologiques permettant de décrire les produits des gènes (protéines ou ARNm) des organismes. Il comprend trois ontologies parallèles qui sont de plus en plus utilisés par la communauté bioinformatique: fonctions moléculaires, processus biologiques et composants cellulaires. o Le vocabulaire contrôlé eVoc : offre un système qui associe des données d'expression (issues de puces à ADN, expériences SAGE ou ESTs) à un ensemble de vocabulaires hiérarchiques [Kel, 03]. eVoc se compose de quatre vocabulaires contrôlés orthogonaux appropriés pour décrire et comparer l'expression des gènes chez l'homme et la souris. o Le consortium HUGO (Gene Nomenclature Committee) : est né d'une volonté d'uniformiser la désignation des gènes, propose une terminologie uniforme pour 29 000 gènes humains [Wai, 02]. o TAMBIS : est une plate-forme basée sur une ontologie globale, la Tao (TAMBIS Ontologie) décrivant les ressources associées aux données génomiques et à leur manipulation, caractérisant ainsi les logiciels et les bases de donné [Ste, 00]. o Le projet européen HKIS : vise à concevoir une architecture d'intégration qui tienne compte à la fois des bases de données publiques (GenBank) et de données biologiques privées (données du transcriptome, comme les informations médicales ou cliniques des patients). Basé sur une ontologie de concepts disponibles dans les bases moléculaires et combiné à une formalisation des 36 Chapitre 2. Les Ontologies scénarios de traitements des données de l'utilisateur, HKIS propose un chemin de navigation dans des bases de données successives et permettant de répondre à la requête de l'utilisateur [Coh, 04]. o Le projet OBO (Open Biomedical Ontology) : est une collaboration des développeurs d'ontologies scientifiques dont le but est de créer des ontologies de référence dans le domaine biologique et biomédical. o La plate-forme NCBO (National Center for Biomedical Ontology) : développe et maintient une application Web appelée BioPortail qui permet aux chercheurs d'accéder et d'utiliser des ontologies biomédicales. Il recense 194 ontologies telles que GO, National Cancer Institute Thesaurus, International Classification of Diseases, Foundational Model of Anatomy [Jon, 09]. o La plate-forme OLS (Ontology Lookup Service) : quant à elle, a été créée pour intégrer des ontologies biomédicales et les mettre à la disposition du public à travers une base de données unique. Elle contient plus de 80 ontologies. 7.2. Ontologies des champignons Les deux champignons modèles d’intérêt sont des organismes à cycle de reproduction court, faciles à gérer dans les laboratoires et accessibles aux méthodologies de la génétique classique et de la biologie moléculaire. Ils sont pluricellulaires et filamenteux, mais différents du champignon unicellulaire le plus étudié, Saccharomyces cerevisiae. Plusieurs ontologies décrivant les champignons existent, mais les objectifs, la spécificité de l’espèce, ou le spectre diffèrent de nos besoins. o La FAO (Fungal Anatomy Ontology) : est un vocabulaire contrôlé décrivant l'anatomie des trois grands phylums de champignons, ascomycètes, basidiomycètes et zygomycètes. Son large spectre, en contrepartie, ne la rend pas assez détaillée pour notre usage. o L’APO (Ascomycete Phenotype Ontology) : décrit les observations phénotypiques des ascomycètes, mais elle est principalement enrichie par les 37 Chapitre 2. Les Ontologies phénotypes mutants de S. cerevisiae qui ne sont pas partagés par nos champignons. o La FWO (Fungal Web Ontology) : est une ontologie développée pour l'analyse à grande échelle des relations génétiques entre les enzymes et les connaissances disponibles sur les champignons [Sha, 05]. La FWO réutilise et intègre différentes ressources: la base de données de littérature et de taxonomie du NCBI, une autre base de données taxonomique appelée NEWT, la base de données des enzymes, BRENDA, la base de données dédiée à la levure, Saccharomyces Genome Database, et la base de données dédiée au champignon N. crassa. La FWO associe gènes et produits des gènes mais elle manque de données d'expression. o Le projet AFTOL-2 (Assembling the Fungal Tree of Life) : vise à recenser certaines séquences de gènes. Les quelques gènes d'intérêt sont choisis pour être partagés entre tous les champignons dans le but d'améliorer leur taxonomie. o La CCO (Cell Cycle Ontology) : est encore une autre ontologie qui intègre et gère la connaissance sur les composants du cycle cellulaire et de ses aspects régulateurs pour différentes espèces. Elle est espèce spécifique, et concerne seulement deux champignons unicellulaires, S. cerevisiae et S. pombe. 7.3. Ontologies associées aux expérimentations L’annotation efficace, la récupération et le partage des résultats expérimentaux sont des problèmes de la biologie moderne. Les ontologies peuvent aider dans ces tâches, car elles incarnent la connaissance abstraite nécessaire à l'intégration de données et d'analyses. Ainsi, une description formelle des expériences est extrêmement importante pour l'organisation et l'exécution des expériences en biologie. Par exemple, les bio-puces du projet MGED (Micro-array Gene Expression) prévoient des termes pour annoter tous les aspects d'une expérience de puces à ADN de sa conception avec la définition des hybridations, à la préparation de l'échantillon biologique et des protocoles utilisés pour hybrider l'ARN sur la puce et analyser les données. Les termes MGED sont fournis sous la forme d'une ontologie : ils sont organisés en classes avec des propriétés, et sont bien définis. Ils permettent des 38 Chapitre 2. Les Ontologies requêtes structurées concernant les éléments des expériences. Les descriptions du comment et du pourquoi chaque expérience a été réalisée sont nécessaires et pour les descriptions du matériel biologique (biomatériaux) et de certains traitements utilisés dans l'expérience, les termes peuvent provenir de ressources externes qui sont spécifiées dans l'ontologie. Les logiciels utilisant l'ontologie proposent des formulaires pour l'annotation, remplissent directement les bases de données, ou éditent des fichiers dans le format établit MAGE-ML. Ainsi, l'ontologie sera utilisée directement par les utilisateurs pour annoter leurs expériences sur bio-puces ainsi que par les développeurs de logiciels et de bases de données [Gue, 05]. Comme les ESTs, les expériences de microarray concernent des données d'expression, mais d'une manière très différente. Les données d’ESTs sont les premières données d'expression (le premier EST date du 26/05/1992), tandis que, des données de bio-puces, plus récentes ont pu bénéficier des réflexions concernant les ontologies qui se sont déroulées à la même époque. L'ontologie MGED, mise au point avec les applications pratiques des bio-puces ne peut être utilisée pour la description des ESTs. 8. Conclusion Les ontologies sont définies pour un objectif donné et expriment un point de vue partagé par une communauté. Conçues pour répondre aux problèmes posés par l’intégration des connaissances au sein des systèmes informatiques, les ontologies apparaissent désormais comme une solution pour la manipulation de l’information au niveau sémantique. La diversité et la puissance des applications potentielles des ontologies laissent à penser que leur place au sein des systèmes d’information ne peut que croître. Si les principaux projets utilisant des ontologies ne visent pour le moment que la gestion de connaissances au niveau sémantique, les ontologies pourraient permettre à terme la création de systèmes capables non seulement de gérer des connaissances mais aussi de raisonner sur ces connaissances et, pourquoi pas, d’en produire de nouvelles. Dans ce chapitre, les premières notions liées aux ontologies ont été présentée à savoir leurs définitions, leurs composants, leurs typologies, leurs utilités et quelques applications domaines de la biologie. Cette revue, bien que n'étant pas exhaustive car ce 39 Chapitre 2. Les Ontologies domaine est assez vaste aujourd'hui, mais introduit les éléments nécessaires qui permettent d'aborder le chapitre suivant à savoir les méthodes et outils de construction des ontologies. 40 Chapitre 3 La construction d’ontologies à partir de corpus de textes Plan 1. Introduction 2. Méthodes et méthodologie de construction des ontologies 2.1. Construction d’Ontologie à partir de zéro 2.2. Construction d’Ontologie par réutilisation 2.3. Construction collaborative 3. Construction d’ontologies à partir de corpus de textes 3.1. Constitution d'un corpus 3.2. Extraction de termes 3.3. Extraction de relations 3.4. Nécessité de l’intervention humaine pour la construction d’ontologie 4. Rôle des statistiques textuelles pour la construction d’ontologie 5. Rôle des grammaires rationnelles pour la construction d’ontologie 6. Editeurs d’ontologies 6.1. Les outils orientés ontologisation 6.2. Les outils orientés conceptualisation 7. Cycle de vie des ontologies 8. Conclusion Chapitre 3. La conception d’ontologies à partir de corpus de textes 1. Introduction La conception d’ontologies est une tâche difficile qui nécessite la mise en place de procédés élaborés afin d’extraire la connaissance d’un domaine, manipulable par les systèmes informatiques et interprétable par les êtres humains. Deux types de conception existent : la conception entièrement manuelle et la conception reposant sur des apprentissages. Plusieurs principes et méthodologies ont été définis pour faciliter la génération manuelle. Ces principes se basent sur des fondements philosophiques et suivent des procédés de modélisation collaboratifs. Cependant, ce procédé de génération est très coûteux en temps et pose surtout des problèmes de maintenance et de mise à jour. La conception automatique d’ontologies commence à émerger comme un sous-domaine de l’ingénierie des connaissances. Face à la masse croissante de documents présents sur le Web et aux avancées technologiques dans le domaine de la recherche d’information, de l’apprentissage automatique et du traitement automatique des langues, de nouveaux travaux portent sur la recherche d’un procédé plus automatique de génération d’ontologies. Ce mécanisme mène généralement à la conception d’ontologies dites légères. Dans les travaux de Gargouri [Gar, 03], différents types d’approches sont distingués en fonction du support sur lequel elles se basent : à partir de textes, de dictionnaires, de bases de connaissance, de schémas semi-structurés et de schémas relationnels. Dans ce chapitre, quelques unes des méthodes de construction d’ontologie seront exposées. Par la suite, la méthodologie de construction d’ontologies à partir de corpus de textes sera expliquée en détail, car elle est d'un intérêt particulier dans le cadre de notre étude pour l’acquisition des informations expérimentales des deux champignons filamenteux. Enfin, quelques outils et le cycle de vie des ontologies seront décrits. 2. Méthodes et méthodologie de construction des ontologies Les travaux sur la construction des ontologies ont débuté dans les années 1990 [Gub, 95], [Grü, 95], [Bla, 98], [Usc, 95], [Fer, 97], [Gua, 98], [Cor, 03], [Jar, 02] et [Aus, 00]. Il existe plus de 33 méthodes décrites dans la littérature. Le tableau ci-dessous donne un aperçu de ces méthodes et méthodologies. 42 Chapitre 3. La conception d’ontologies à partir de corpus de textes Méthodes et méthodologies de construction des ontologies Approche collaborative Méthode de l’université de STANDFORD Methontology Onions- Ontologic Integation of Naive Sources [Hol, 02] [Nat, 02] [Flg, 02] [Gan, 02] FCA-merge Modèle en V On-To-Knowledge KRAFT [Stu, 01] [Ste, 01] [Sta, 01] [Jfs, 00] PROMPT Infosleuth (KA) 2 Method for Reengineering [Nom, 00] [Hwa, 99] [Dec, 99] [Gpb, 99] Méthodologie Ontobroker SENSUS SISM [Ngu, 97] [Ash, 97] [Swa, 97] [Are, 97] Mikrokosmos PhysSys Approche unifiée Enterprise [Mah, 96] [Bor, 96] [Umk, 95] [Umk, 95] Ontolingua TOVE - Toronto Virtual Enterprise Common KADS & KACTUS Menelas [Far, 95] [Grf, 95] [Mar, 94], [Wie, 94] [Bou, 94] Plinius Projet KACTUS Cyc [Mar, 94] [Sch, 92] [Lea, 90] Tableau 3.1 Méthodes et Méthodologies de l’ingénierie ontologique. [Cho, 09] Ces méthodes peuvent être classées comme suit : 1. Les méthodes et méthodologies pour la construction d'ontologies en partant de zéro ; 2. Les méthodes pour la réingénierie d'ontologies ; 3. Les méthodes de construction coopérative d'ontologies. 2.1. Construction d’Ontologie à partir de zéro Elle est basée majoritairement sur l’extraction d’ontologies à partir de textes. La méthode TERMINAE est un exemple de cette approche. Elle se base sur les étapes de 43 Chapitre 3. La conception d’ontologies à partir de corpus de textes Constitution d’un corpus (documents techniques, comptes rendus, livres de cours, etc.), à partir d’une analyse des besoins de l’application visée, Etude linguistique, pour identifier des termes et des relations lexicales, en utilisant des outils de traitement de la langue naturelle comme LEXER, Normalisation sémantique, conduisant à des concepts et des relations sémantiques définis dans un langage semi-formel, et Formalisation et intégration des concepts au sein d’une Base de Connaissance formelle. [Dia, 06] 2.2. Construction d’Ontologie par réutilisation Elle est basée sur l’intégration ou fusion avec d’autres ontologies. Ceci nécessite très souvent une étape d’alignement, qui identifie les concepts et les relations que ces ontologies ont en commun. Des exemples de propositions méthodologiques ou techniques concernant cette approche sont trouvables dans ONIONS ou PROMPT. [Dia, 06] 2.3. Construction collaborative Ces travaux cherchent davantage à mettre en valeur et assister la nécessaire collaboration entre les concepteurs des ontologies, en mettant à leur disposition des dispositifs de discussion et de gestion de versions différentes des ressources en cours de construction. [Dia, 06] 3. Construction d’ontologies à partir de corpus de textes Dans cette section, nous allons expliquer la méthodologie de construction d’ontologies à partir de corpus de textes, car elle est d'un intérêt particulier dans le cadre de notre travail pour l’acquisition des informations expérimentales des champignons d’étude (voir chapitre 4). La construction d’ontologies à partir de textes vise à la mise en œuvre à partir d’éléments qui peuvent être extraits de ces textes. Cette construction fait intervenir différents domaines (Recherche d’information, Ingénierie des Connaissances, Traitement Automatique des Langues) qui peuvent être associées aux différentes phases de cette méthodologie. 44 Chapitre 3. La conception d’ontologies à partir de corpus de textes 3.1. Constitution d'un corpus Afin de mettre en place la construction d’ontologies à partir de textes, il est tout d’abord nécessaire de constituer l’ensemble des documents sur lequel reposera cette élaboration. Cette tâche de constitution du corpus est à la fois primordiale et délicate. Puisque, d’une part, le corpus est la source d’information essentielle pour tout le processus de construction et d’autre part, il restera, une fois le processus achevé, l’élément de documentation de la ressource construite, il doit être composé avec un maximum de précautions méthodologiques. Dans ce domaine, il n’est hélas pas encore possible de définir a priori des instructions méthodologiques très précises pour encadrer la tâche de sélection des sources textuelles qui viendront constituer le corpus. Au-delà des problèmes techniques ou politiques de disponibilité des textes, cette collecte doit se faire avec l’aide des spécialistes et en fonction de l’application cible visée. Il convient en effet de s’assurer auprès des spécialistes que les textes choisis ont un statut suffisamment consensuel pour éviter toute remise en cause ultérieure de la part d’utilisateurs ou de leur part. Par ailleurs, il convient de prévoir d’emblée une boucle de rétroaction au cours de laquelle une première version du corpus sera modifiée et enrichie en fonction d’une première phase d’analyse des résultats fournis par les outils de Traitement Automatique du Langage Naturel (TALN) sur cette version initiale. [Her, 06] Le critère de la taille est évidemment important, même s’il est impossible de donner un chiffre idéal. Le choix est ici encore un compromis. Le corpus doit être suffisamment « gros » pour justifier que des outils de traitement de la langue soient nécessaires pour le dépouiller de façon efficace. Mais il doit être suffisamment petit et/ou redondant pour pouvoir être appréhendé de façon globale par l’analyste, même à l’aide d’outils de TALN. Une fourchette entre 50 000 et 200 000 mots semble raisonnable. Les projets prenant le Web comme source de textes font rapidement exploser ces chiffres, posant par la même des problèmes spécifiques, comme celui de la définition d’un « échantillon » pertinent pour l’étude. [Her, 06] Enfin, dans la majorité des cas, le corpus sera hétérogène dans le sens où il aura été constitué en rassemblant des textes d’origine variée. Il est alors absolument nécessaire de procéder à un balisage du corpus qui permettra aux outils d’analyse, et ainsi qu’à l’analyste, 45 Chapitre 3. La conception d’ontologies à partir de corpus de textes de repérer les différents sous-corpus pour procéder éventuellement à des analyses contrastives. [Her, 06] 3.2. Extraction de termes Cette tâche consiste à extraire un ensemble de termes candidats pour représenter les concepts d’une ontologie. Ces termes peuvent être extraits selon deux approches : syntaxique ou statistique. L’approche syntaxique analyse le rôle grammatical des mots dans ces textes, alors que l’approche statistique repose sur la fréquence d’apparition des mots dans les textes. w Approche syntaxique Ces approches utilisent certaines informations syntaxiques dans le choix des termes et supposent que le document a déjà subi une analyse morphologique et une analyse syntaxique. Parmi ces approches, nous citons deux familles : les approches basées sur patrons morpho-syntaxiques et les approches basées sur règles de transformation [Khe, 06]. o Utilisation de patrons morpho-syntaxiques C’est l’une des techniques les plus utilisées pour l’extraction de termes. Les systèmes basés sur cette technique supposent que les termes à extraire obéissent à des régularités syntaxiques stables. Ces systèmes prennent en entrée un ensemble de patrons constitués d’une suite de catégories grammaticales et qui peuvent être par exemple : NOM NOM / ADJQ NOM / NOM PREP NOM...Toutes les occurrences de mots correspondant à ces patrons sont extraites comme des candidats termes potentiels. o Utilisation des règles de transformation Ces méthodes permettent d’extraire des termes complexes à partir de connaissances extérieures servant de référence. Généralement, elles identifient des variantes de termes fournis par un thésaurus ou un vocabulaire contrôlé. 46 Chapitre 3. La conception d’ontologies à partir de corpus de textes w Approche statistique Ces approches utilisent seulement les co-occurrences de mots. Le principe est que si deux mots co-occurrent souvent dans un certain type de contexte, alors ils peuvent être regroupés dans un terme. Le calcul de co-occurrences varie selon le contexte et selon les besoins. Il peut se faire dans le même document, le même paragraphe, la même phrase, ou dans une certaine distance [Khe, 06]. w Approche mixte Ces approches combinent des méthodes à orientation statistique et des méthodes à orientation syntaxique. Elles utilisent généralement des calculs statistiques afin d’affiner leurs méthodes d’extraction linguistique [Khe, 06]. 3.3. Extraction de relations Après avoir présenté quelques approches d’extraction de candidats-termes, nous allons voir les différentes approches proposées pour extraire des relations sémantiques entre ces termes. Nous présentons trois grandes familles à savoir : l’étude statistique, l’exploitation des contextes syntaxiques et l’utilisation de marqueurs. w Extraction des relations par étude statistique Ces approches reposent sur le principe que les termes qui co-occurrent ensemble ont de fortes chances d’être liés par des relations sémantiques. Elles exploitent donc la distribution des termes dans le document/corpus en utilisant des techniques de fouille basées sur des méthodes statistiques. Ces méthodes n’extraient pas vraiment des relations mais proposent un nuage de termes, à partir duquel un expert pourrait déduire des relations ou des classes conceptuelles [Khe, 06]. w Extraction des relations par exploitation des contextes syntaxiques Comme pour les premières, ces approches exploitent le principe de co-occurrence des termes pour la détection des relations. Par contre, elles utilisent la distribution syntaxique des termes à la place des calculs statistiques pour extraire les relations. 47 Chapitre 3. La conception d’ontologies à partir de corpus de textes w Extraction des relations par l’utilisation des marqueurs Ces approches se basent sur les traces linguistiques qui signalent les relations sémantiques dans le texte (ces traces peuvent être liées, soit à la langue, soit au domaine) pour construire des marqueurs permettant la détection de ces relations. Un marqueur peut être considéré comme une formule linguistique que les mots désignant une relation dans le texte doivent vérifier [Khe, 06]. 3.4. Nécessité de l’intervention humaine pour la construction d’ontologie Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement non supervisée des ressources sémantiques de bonne qualité [Bie, 05]. Il faut sous-entendre ici des ressources suffisamment profondes, dont la couverture soit suffisamment large et dont les erreurs dans les analyses soient suffisamment négligeables. La plupart des outils disponibles pour la construction d’ontologie à partir de textes [Gom, 03] sont décrits comme nécessitant l’intervention humaine à différents niveaux : o Procurer des données ou connaissances initiales : plusieurs méthodes et outils de construction d’ontologie requièrent que des experts fournissent des données ou connaissances pour initialiser la construction semi-automatique. Par exemple, certaines méthodes de construction d’ontologie [Gom, 03] recommandent que des experts de domaine choisissent les documents utilisés pour la construction d’ontologie de domaine afin de s’assurer que toutes les notions pertinentes au domaine soient couvertes par ces documents. w Raffiner les informations extraites : beaucoup de méthodes et outils ne permettent d’extraire que des ontologies superficielles qui peuvent souvent nécessiter des raffinements. Par exemple, la plupart des méthodes d’extraction pour la construction d’ontologie ne portent que sur l’extraction de concepts à partir de noms communs [Bie, 05]. Dans ce cas, des raffinements peuvent être nécessaires afin d’ajouter des relations non taxonomiques aux ontologies par exemple. Un autre exemple OntoDL [Bui, 04] dont les règles d’extraction et les résultats d’extraction peuvent être raffinés par le développeur. 48 Chapitre 3. La conception d’ontologies à partir de corpus de textes w Valider les informations extraites : les taux d’erreurs pour les informations extraites à partir de corpus sont parfois élevés et/ou peuvent nécessiter des validations par des experts. Par exemple le système On-to-Knowledge [Gom et al, 03] extrait des relations d’hyponymie mais avec un fort taux d’erreurs. 4. Rôle des statistiques textuelles pour la construction d’ontologie o La fréquence de terme est proportionnelle au nombre de fois qu’un terme apparaît dans un document. Ce nombre est généralement normalisé par le nombre de tous les termes dans un document afin d’éviter les biais pour de longs documents. La fréquence de terme est parfois utilisée pour (i) l’identification de termes pertinents d’un corpus ou (ii) directement pour l’identification de candidats de concepts (ou d’instances de concepts) et de relations [Gom, 03]; les termes et couplages de termes dont les fréquences relatives sont plus grandes dans un corpus de domaine que dans un corpus général sont parfois proposés à l’expert respectivement comme candidats de concepts et comme candidats de relations. o TF-IDF (Term Frequency - Inverse Document Frequency) [Lav, 07] est une mesure statistique utilisée pour évaluer l’importance (le poids) d’un mot dans un document d’un corpus. L’importance croit proportionnellement avec le nombre d’occurrences du mot dans le document mais est contrebalancée par la fréquence du mot dans le corpus. La fréquence inverse du document (IDF) pour un terme donné est une mesure de l’importance générale de ce terme (c’est le logarithme du nombre de tous les documents divisé par le nombre de documents contenant ce terme): pour un terme ti , TF-IDF = TF x IDF où IDF = log (nombre de documents / nombre de documents contenant le terme ti). Un haut poids TF-IDF est atteint avec une haute fréquence d’un terme dans un document donné et une faible occurrence de ce terme dans les documents du corpus. TF-IDF tend à filtrer les termes communs. TF-IDF est parfois utilisé comme métrique de similarité pour mesurer la distance entre termes [Gom, 03]: la métrique permet ainsi de regrouper les termes similaires en concepts communs. TFIDF est également utilisé pour détecter les termes pertinents à un domaine donné [Gom, 03]. 49 Chapitre 3. La conception d’ontologies à partir de corpus de textes o L’analyse sémantique latente [Lav, 07] est une technique d’extraction et de représentation de la signification contextuelle des mots par calculs statistiques sur un large corpus textuel. L’idée de base est que l’agrégation des contextes où les mots apparaissent et n’apparaissent pas fournit un ensemble de contraintes déterminant la signification des mots et la similarité avec les autres mots. L’analyse sémantique latente utilise une matrice de termes de documents décrivant les occurrences des termes dans les documents. La matrice est creuse avec les rangées correspondant à des documents et les colonnes correspondant aux termes. La métrique TF-IDF est souvent utilisée afin de pondérer les occurrences des termes (le poids d’une entrée donnée dans la matrice est proportionnel au nombre de fois qu’un terme apparaît dans un document). Les poids des termes rares sont ajustés de façon à refléter leurs importances relatives. L’analyse sémantique latente transforme la matrice de termes de documents en un espace de concepts latents (agrégation de contextes d’apparition des termes) permettant de mettre en relations termes et concepts, ainsi que documents et concepts. La notion de concept issue de l’analyse sémantique latente est supportée par l’hypothèse distributionnelle de Richard Harris [Lav, 07] selon laquelle les mots qui tendent à apparaître dans des contextes similaires ont des sens similaires. Dans les deux cas, la co-occurrence de termes est interprétée comme un indicateur de proximité sémantique. De façon générale, l’extraction de connaissances ontologiques à partir de textes non structurés repose sur l’hypothèse distributionnelle des mots dans les textes. 5. Rôle des grammaires rationnelles pour la construction d’ontologie Une grammaire rationnelle est un ensemble d’expressions (couples, triplets, schémas, patrons, etc.) ordonnées définissant un langage [Lav, 07]. Dans le contexte de l’analyse de texte, la grammaire spécifie la composition des phrases d’un langage naturel. o Les modèles N-grams [Lav, 07] sont considérés par certains comme des grammaires rationnelles stochastiques; c’est-à-dire des modèles hybrides représentant les propriétés statistiques et compositionnelles des textes. Les modèles N-grams modélisent des séquences de termes (mots, lettres, etc.) avec des N-grams qui sont des sous-séquences de N termes. Ils permettent de déterminer la probabilité d’un mot étant donné les N-1 mots précédents. Les séquences à fortes probabilités permettent de déterminer les séquences de mots fortement associés, telles les collocations (e.g. 50 Chapitre 3. La conception d’ontologies à partir de corpus de textes “cordon bleu”), où chaque séquence de mots pourra être mise en correspondance avec un concept. Les N-grams permettent également de comparer les contextes d’occurrences. o Les patrons d’expressions contiennent des termes et des variables auxquelles peuvent être associées des contraintes. Les patrons d’expressions sont unifiés avec des textes de façon à instancier les patrons avec des fragments de textes satisfaisant aux structures et aux contraintes des patrons. Les patrons d’expressions permettent de spécifier des relations et/ou des arguments de ces relations afin d’extraire des mots correspondant aux relations ou aux arguments. Par exemple, ils sont parfois utilisés pour l’extraction des relations d’hyponymie (relation sémantique de subordination ou d’appartenance à une classe de plus bas niveau) [Gom, 03]: sachant que Shakespeare est un hyponyme de poète, à partir du patron correspondant à la séquence “poète … Shakespeare” on peut trouver dans un texte l’expression “poète tel que Shakespeare” et faire l’hypothèse que “X tel que Y “ indique une relation d’hyponymie entre X et Y. Inversement, à partir du patron “X tel que Y“ on peut trouver dans un corpus les couples de mots X et Y qui sont possiblement en relations d’hyponymie. La même approche peut être appliquée avec d’autres types de relations lexicales: relations de hypernymie (inverse de l’hyponymie), synonymie, antonymie, méronymie (relation entre la partie et le tout), etc. Les patrons de mots sont souvent utilisés pour raffiner des ontologies existantes. Cependant, les taux d’erreurs sont parfois élevés et des vérifications par des experts sont souvent nécessaires [Gom, 03]. o Les grammaires morphologiques modélisent les constituants morphologiques des mots (morphèmes lexicaux et morphèmes grammaticaux). Elles permettent de déterminer la similarité des termes au niveau des morphèmes lexicaux et de faire abstraction des différences grammaticales (e.g. “cheval” et “chevaux” sont des termes dont les morphèmes lexicaux sont similaires). Les grammaires morphologiques sont souvent implémentées avec des automates à états finis. Dans le contexte de la construction d’ontologie à partir de textes, les grammaires morphologiques sont utilisées pour le prétraitement des textes afin d’obtenir des morphèmes lexicaux à partir desquels d’autres traitements sont effectués. Par exemple, les matrices de termes utilisées pour l’analyse sémantique latente peuvent contenir des morphèmes lexicaux obtenus après prétraitement des textes. 51 Chapitre 3. La conception d’ontologies à partir de corpus de textes o Les grammaires syntaxiques modélisent les structures syntaxiques des phrases. Ces grammaires permettent de distinguer les relations de dépendances syntaxiques entre les mots qui sont généralement spécifiés par leurs propriétés morpho-syntaxiques: e.g. l’expression “les poules couvent” peut être analysée comme étant composée d’un syntagme verbal (le verbe couver à l’indicatif présent) ayant pour sujet syntaxique un syntagme nominal (les poules, où poule est un nom commun pluriel défini). Dans le contexte de construction d’ontologie à partir de textes, les grammaires syntaxiques permettent de regrouper les termes selon les similarités syntaxiques. Par exemple, dans l’outil SVETLAN [Gom, 03], les termes nominaux qui dans le corpus ont des relations syntaxiques similaires avec les mêmes termes verbaux sont agrégués sous le même concept: l’hypothèse est que les verbes et leurs relations syntaxiques permettent de catégoriser les noms. Cependant les analyseurs syntaxiques sont relativement peu employés pour la création d’ontologie; les grammaires syntaxiques sont souvent peu accessibles pour la plupart des langues et leurs couvertures sont souvent insuffisantes pour de grand corpus de textes. o Les grammaires sémantiques modélisent les informations sémantiques associées aux phrases. Au niveau sémantique, les termes sont généralement classifiés comme des objets, des événements ou des états. Les informations sémantiques portent sur les propriétés de ceux-ci (e.g. objet animé) et sur leurs relations (e.g. relation causale entre un objet et un évènement). Les grammaires sémantiques sont parfois intégrées aux grammaires syntaxiques puisque ces premières dépendent souvent de ces dernières. Dans le contexte de construction d’ontologie à partir de textes, les grammaires sémantiques permettent de regrouper les termes selon leurs similarités sémantiques. Par exemple, OntoExtract [Gom, 03] génère des taxonomies (ontologies légères) à partir d’analyse basée sur des grammaires sémantiques. Cependant, comme pour le cas des analyseurs syntaxiques, les analyseurs basés sur des grammaires sémantiques sont encore relativement peu employés pour la création d’ontologie à cause des ressources insuffisantes pour la plupart des langues ou pour couvrir de grands corpus de textes. 52 Chapitre 3. La conception d’ontologies à partir de corpus de textes 6. Editeurs d’ontologies Il existe de nombreux outils permettant de construire des ontologies. Une classification selon [Fur, 04] distingue : les outils orientés ontologisation et ceux orientés conceptualisation. 6.1. Les outils orientés ontologisation Parmi ces outils nous avons choisi de décrire Protégé 2000, OntoEdit et WebOnto et dans ce qui suit car ce sont les outils les plus utilisés. o Protégé 2000 [Mar, 08]: Protégé 2000 est une interface modulaire permettant l'édition, la visualisation, le contrôle (vérification des contraintes) d'ontologies, l'extraction d'ontologies à partir de sources textuelles, et la fusion semi-automatique d'ontologies. Le modèle de connaissances sous-jacent à Protégé 2000 est issu du modèle des frames et contient des classes (concepts), des instances des classes et des propriétés, ainsi que des facettes (valeurs des propriétés et contraintes). Protégé est un éditeur d’ontologies pour les différents langages : XML, RDF et OWL. o OntoEdit [Mar, 08]: OntoEdit (Ontology Editor) est un environnement de construction d'ontologies qui permet l'édition des hiérarchies de concepts et de relations et l'expression d'axiomes algébriques portant sur les relations, et de propriétés telles que la généricité d'un concept. Des outils graphiques dédiés à la visualisation d'ontologies sont inclus dans l'environnement. OntoEdit intègre un serveur destiné à l'édition d'une ontologie par plusieurs utilisateurs. Un contrôle de la cohérence de l'ontologie est assuré à travers la gestion des ordres d'édition. Enfin, un plug-in nommé ONTOKICK offre la possibilité de générer les spécifications de l'ontologie par l'intermédiaire de questions de compétences. o WebOnto [Mar, 08]: WebOnto du Knowledge Media Institute de l’Open University, est une application Web pour naviguer et développer collaborativement les ontologies. Il supporte la navigation collaborative, la création et l’édition d’ontologies sur le Web. Les ontologies WebOnto sont implémentées dans le langage OCML. Le langage OCML est une combinaison des frames et de la logique de premier ordre et permet de 53 Chapitre 3. La conception d’ontologies à partir de corpus de textes représenter les concepts, la taxinomie des concepts, les relations, les fonctions, les axiomes et les instances. WebOnto distingue quatre types d’ontologies : ontologie de domaine, ontologie de tâche, ontologie de méthode, et ontologie d’application. Il supporte l’inclusion d’ontologie au moyen des interfaces graphiques. En ce qui concerne l’édition collaborative d’ontologie, WebOnto est le seul outil qui procure cette fonctionnalité, il permet aux ingénieurs des connaissances de tenir des discussions sur les changements et les mises à jour des ontologies lors d’édition ou de navigation, en mode synchrone et asynchrone. 6.2. Les outils orientés conceptualisation Les outils les plus fréquemment utilisés pour la conceptualisation sont TERMINAE, OntoBuilder et Text-To-Onto : o TERMINAE [Bie, 99] : Cet outil a été développé au LIPN de l’Université ParisNord, permet à travers l’outil d’ingénierie linguistique LEXTER, d’extraire d’un corpus textuel les candidats termes d’un domaine. TERMINAE utilise des techniques d’analyse syntaxique de texte pour proposer à l’utilisateur des termes candidats pour les concepts du domaine et les différents sens des concepts donnés par les usages qui en sont faits dans le corpus. Le modèle de représentation de TERMINAE est celui des Logiques de Description, un export des ontologies dans le langage OIL est même possible pour la validation de l’ontologie. o Text-To-Onto : Cet outil a été développé à l’institut AIFB de l’Université de Karlsruhe3, offre les mêmes fonctionnalités d’extraction d’ontologie à partir de corpus ou de documents Web, mais en utilisant des ontologies existantes [Mae, 01]. Il est intégré à la plateforme logicielle KAON (KArlsruhe ONtology and Semantic Web Infrastructure) d’édition et de maintenance d’ontologie [Boz, 02]. KAON utilise le modèle de connaissance de RDFS et est orienté vers l’utilisation des ontologies sur le Web, l’application KAON Portal permettant la recherche et le parcours d’ontologie via un navigateur Web. 54 Chapitre 3. La conception d’ontologies à partir de corpus de textes 7. Cycle de vie des ontologies Étant donné que les ontologies sont destinées à être utilisées comme des composants logiciels dans des systèmes informatiques répondant à des objectifs opérationnels différents, leur développement doit s’appuyer sur les mêmes principes que ceux appliqués en génie logiciel. En particulier, elles doivent être considérées comme des objets techniques évolutifs et posséder un cycle de vie spécifique. Les activités liées à une ontologie peuvent être regroupées en trois catégories [Bla, 98] : o Des activités de gestion de projet : planification, contrôle, assurance qualité. o Des activités de développement : spécification, conceptualisation, formalisation. o Des activités de support : évaluation, documentation, gestion de la configuration. Figure 3.1 Cycle de vie des ontologies. La figure 3.1 représente les différentes activités qui expliquent que le cycle de vie préconisé est un cycle par prototypes : la vie d’une ontologie passe par les états suivants : spécification des besoins, conception (normalisation, formalisation et opérationnalisation) déploiement et diffusion, utilisation, évaluation et enfin évolution et maintenance. Le cycle de vie par évolution de prototypes permet à l’ontologiste de retourner de n’importe quel état à n’importe quel autre si une certaine définition manque ou est erronée. Ainsi, ce cycle de vie permet l’inclusion, le déplacement ou la modification de définitions n’importe quand durant le cycle de vie de l’ontologie. L’acquisition, la documentation et l’évaluation de connaissances sont des activités de support qui sont effectuées pendant la majorité de ces états. 55 Chapitre 3. La conception d’ontologies à partir de corpus de textes Fernandez et ses collègues [Fer, 97] insistent sur le fait que les activités de documentation et d’évaluation sont nécessaires à l’étape du processus de construction d’ontologie, l’évaluation précoce permettant de limiter la propagation d’erreurs. 8. Conclusion La capture de la connaissance nécessaire pour l’élaboration d’une ontologie peut être réalisée à partir de plusieurs principes et méthodologies. Les différentes méthodologies proposées dans la littérature insistent sur l’importance de spécifier la tâche pour laquelle l’ontologie est construite. Cette tâche conditionne les éléments de connaissance qui devront être collectés ainsi que le niveau de formalisation nécessaire pour que l’ontologie soit manipulée par le système. Aussi, l’élaboration d’ontologies à partir de textes permet de faciliter la conception d’ontologies légères. Elle peut reposer soit sur une analyse statistique des termes apparaissant dans les documents, soit sur une analyse syntaxique qui consiste à analyser le rôle grammatical des mots qui les composent. Ces deux approches permettent d’aider à extraire les termes qui définiront le lexique de l’ontologie du domaine. Nous proposons de construire une ontologie à partir d’un corpus de textes biologiques permettant de capturer la sémantique associée au contexte expérimental d'expression associées aux séquences d’ESTs de deux champignons filamenteux dont les termes-clés sont extraits par une approche statistique. 56 Deuxième Partie Conception & Mise en œuvre Chapitre 4 La Conception Plan 1. Introduction 2. Expérimentation 2.1. Collecte des données 2.2. Structure des données d’expression : Les ESTs 2.3. Extraction des termes candidats 2.4. Résultats de l’extraction des termes 2.5. Exploitation des termes de l’ontologie pour le clustering 3. Conception 3.1. Choix de la méthode de construction de l’ontologie 3.2. Architecture du système 3.3. Le module consultation 3.4. Le module exploitation 3.5. Le module enrichissement 4. Conclusion Figure 4.1 Schématisation de l’approche. 58 Chapitre 4. La Conception 1. Introduction Ce chapitre présente d’abord l’expérimentation effectuée à travers la définition du corpus à partir duquel la ressource terminologique est établie, l’extraction manuelle et statistique automatique des termes-clés (ou termes-candidats) grâce à l’outil K.E.A et les critères choisis pour la construction de l’ontologie biologique pour ces deux champignons. Ensuite, la conception de l’ontologie biologique à partir des termes précédemment extraits en spécifiant la méthode choisie à cet effet, leur exploitation par le logiciel TANAGRA pour le clustering, y est expliquée. Enfin, la présentation de l’architecture qui exploite cette ontologie en détaillant les différents modules de ce système, est décrite. 2. Expérimentation Une entrée d’une fiche d’ESTs dans une base de données de séquences biologiques est définie par au moins deux entités : les informations relatives à la description de l'entrée, et sa séquence. Ainsi, l'utilisation de ses données est possible selon de deux moyens : le premier, appelé recherche par similarité, utilise uniquement la séquence d’entrée pour déterminer la ou les séquences les plus proches de la séquence utilisée. Le deuxième moyen recherche des termes-clés directement dans les champs des entrées renseignées dans bases de données de séquences. Dans cette étude, la deuxième méthode a été adoptée : utiliser des termes-clés afin d’identifier les informations associées au contexte des expériences qui ont conduit à une certaine catégorie de séquences d’ADN : Les ESTs (Expressed Sequence Tags) (Annexe B), depuis l'extraction des molécules jusqu’à leur séquençage. Ainsi, deux modèles de champignons multicellulaires Neurospora crassa et Podospora anserina (Annexe A) ont été choisis car ils sont enrichis par des données d'expression. 2.1. Collecte des données Un corpus (de terminologie anglo-saxonne) a été constitué des données provenant de la base de séquences générale, Genbank (au NCBI), et concerne Neurospora crassa, avec 277147 fiches d’EST provenant de 22 expériences et Podospora anserina avec 51286 fiches d’EST issues de 07 expériences. Pour une 59 Chapitre 4. La Conception meilleure «couverture» du domaine, ces informations ont été complétées par plusieurs articles et thèses qui traitent du cycle de développement des champignons d'intérêt. Une approche bottom-up a été suivie pour l'extraction de termes issus des données afin de construire l’ontologie biologique du domaine. La figure 4.1 illustre les différentes étapes de l’expérimentation afin d’aboutir à l’ontologie biologique des deux organismes. 2.2. Structure des données d’expression : Les ESTs La partie "EST" de la base de données de séquences NCBI est constituée d’entrées, chaque entrée correspondant à une séquence d’EST (Expressed Sequence Tag) d’un organisme donné. Un exemple d’une entrée (fiche) d’EST est présenté en figure. Chaque fiche d’EST est composée de quatre parties : · La première partie regroupe toutes les données générales d’une séquence d’EST tel que son identifiant, son numéro d’accession, identifiant de son clone, les primer utilisés, etc. · La deuxième partie correspond à la séquence d’EST proprement dite obtenue après expérimentation. Dans notre exemple la séquence d’EST à une de {A, T, G, C} qui pendant l’expérience 4 heure de croissance végétative a donné ce résultat, la date de création et de mise à jour de la séquence sont aussi spécifiés. Un commentaire est parfois rajouté en complément d’information dans cette partie. · La troisième partie les détails de l’expérimentation effectués sur un organisme donné tels que : nom de la souche, type de tissus, les différents milieux utilisés, la durée de l’expérimentation, etc. (Partie encadrée en rouge qu’on voudrait exploiter). · La quatrième partie donne le nom de(s) soumetteurs(s), le laboratoire et son adresse qui ont obtenu la séquence ainsi que le(s) des différents auteurs qui ont cités ces travaux dans leurs articles. 60 Chapitre 4. La Conception GenBank: GH279783.1 G688P583FB6.T0 Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Neurospora crassa cDNA, mRNA sequence IDENTIFIERS dbEST Id: EST name: GenBank Acc: GenBank gi: 63312709 G688P583FB6.T0 GH279783 218211571 CLONE INFO DNA type: cDNA PRIMERS PolyA Tail: Unknown SEQUENCE ACGCCTTCGCTAGCTACACCTGAGGCCCTCATCGATCATCCACACGATACTCTCATCTGGAACTGAGTCGAAAAAGACATCAAGATTACGAGCCTCT TCTTTCCACCAAAACCCAATGGTTGTGCAACGAGATCCCAGACTATGAAGCCAAGCTTGGTTGCCCTCCGCCATTCGCAAAGACAACCCCGTCCCAC CAATCAAGCCTTGATCCCAAGGGGCAAGCGGTGGAAGCCACCGCAGAAGCCACATTCTTCTGGAGCTCAACCATTCTCTTCTGGTCGCCAGTAGGG TCACTGGATTCGGGCTGCAGAGCCCAGTCAAGAAACTCGTTGGTGTAGTTGGGGGTGAAGTCTGGAACGCCGAGACGTTGACCATATTTGGTGACC TTGGACCAGTCGCGCTCGACGTTCTTGAGGTCCTCGGAGAAGTATGCGTAGCTGCGCTCAAAGATCTTTCTGTTGAGCTCAGTGCCCATGACAGGC TTGAAGTCGACATACTCCTTCCACGCAGCGTCCGGGTTGGCCAGGACAAAGTCAGTGGCCTTCTTGACGGCGCGCATAAAGGCCCGAACCTTGTCT GGGTTCTGCGAGATGAAGGTCTCGTTGCCAATGTAGAGAATCGAGCAGAAGCAGCAGCATCAGAGTTCCGCGAGCTCGTCGATGCGAAGCATCTG AACGTCGGCCTTGTCCCGGCCCTGGGAAGCAGCACTCTCAGCTCATCATCTGCACGTTCTCGAGCGATACGCGTCATCTCCTCCTGATATGACTTG AGACGTCATGCGCAGCGGACGGCGTGTAATCGGCAGGAGTCAGGCCGTAGT Entry Created: Dec 17 2008 Last Updated: Dec 17 2008 COMMENTS Sequenced under the project name G688 at the Broad Institute (www.broad.mit.edu) LIBRARY Lib Name: Organism: Strain: Sex: Vector: R. Site 1: R. Site 2: Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Neurospora crassa Mauriceville A pBluescriptSKXhoI EcoRI Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from Promega. Cells were grown in 1X Vogel's medium/0.5% arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm. First-strand cDNA containing methyl-C was synthesized using an oligo-dT primer bearing a XhoI site to enable directional cloning. After second-strand synthesis, cDNA was subjected to fractionation using a CL-2B Sepharose size fractionation column. After addition of EcoRI adapters, digestion with XhoI, cDNA with size above 1 kb was ligated to XhoI/EcoRI-digested UNIZAP XR Lambda arms and the ligation products packaged into Lambda particles. The Lambda cDNA library was amplified. Mass-excision of the amplified library was accomplished to produce pBluescript phagemid for cDNA sequencing. SUBMITTER Name: Matthew S. Sachs Lab: Department of Biology Institution: Texas A&M University Address: College Station, TX 77843-3258, USA Tel: 979 845 5930 Fax: 979 845 2891 E-mail: [email protected] CITATIONS Title: Neurospora crassa EST Sequencing Authors: Basturkmen,M., Xu,J., Shi,M., Loros,J., Nelson,M., Henn,M., Kodira,C., Lennon,N., Green,L., Galagan,J., Birren,B., Dunlap,J., Sachs,M.S. Year: 2008 Status: Unpublished Figure 4.2 Exemple d’une entrée de fiche d’EST. 2.3. Extraction des termes candidats Un terme candidat est un mot ou une séquence de mots susceptibles d'être retenus comme terme par un terminologue [Des, 08] ou par un analyste et de fournir les étiquettes des concepts [Des, 08]. Ces termes représentent les concepts d’une ontologie qui peuvent être extraits selon deux approches : syntaxique ou statistique. L’approche syntaxique analyse le 61 Chapitre 4. La Conception rôle grammatical des mots dans ces textes, alors que l’approche statistique repose sur la fréquence d’apparition des mots dans les textes. o Extraction manuelle des termes Dans un premier temps, nous avons extraits manuellement les termes en choisissant une fiche d’EST par expérience pour les deux champignons d’étude. Les tableaux (de 4.1 à 4.5) décrivent les détails des informations expérimentales de Neurospora crassa et Podospora anserina. 62 Lib Name (Nom de la library) Mycelium grown for 48h Ascospores 20h after germination trigger Young perithecia of less than 48h Perithecia older than 48h Rapamycin induced mycelium hetR/hetV incompatible mycelium Senescent mycelium LIBRARY EXP.1 EXP.2 EXP.3 EXP.4 EXP.5 EXP.6 EXP.7 Podospora anserina Podospora anserina Podospora anserina Podospora anserina Podospora anserina Podospora anserina Podospora anserina S mat+ S mat+ S mat+ S mat+ S mat+ S mat+ s Strain (Souche) RIEN RIEN RIEN RIEN RIEN RIEN RIEN Sex (Sexe) RIEN RIEN RIEN RIEN RIEN RIEN RIEN Organ (Organe) RIEN RIEN RIEN RIEN RIEN RIEN RIEN Tissue type (Type de tissus) RIEN RIEN RIEN RIEN RIEN RIEN RIEN Develop. stage (Stade de develp) RIEN RIEN RIEN RIEN RIEN RIEN RIEN Vector (Vecteur) Tableau 4.1 Détail des informations expérimentales de P.anserina. Organism (Organisme) RIEN RIEN RIEN RIEN RIEN RIEN RIEN R. Site 1 RIEN RIEN RIEN RIEN RIEN RIEN RIEN R. Site 2 RIEN RIEN RIEN RIEN RIEN RIEN RIEN Cell type (Type cellulaire) RIEN RIEN RIEN RIEN RIEN RIEN RIEN 63 Lab host (Lab hôte) Neurospora crassa SSH Library AR01 Neurospora crassa cDNA - 1 hour Nitrogen Deprivation After 9 hours Vegetative Growth Neurospora crassa cDNA - 1 hour Glucose Deprivation After 9 hours Vegetative Growth Neurospora crassa cDNA - 1 hour Heat Shock After 9 hour Vegetative Growth Neurospora crassa cDNA - 24 hours Vegetative Growth Neurospora crassa cDNA - 7 hours Vegetative Growth Neurospora crassa cDNA - 1 hour Osmotic Stress After 9 hours Vegetative Growth Neurospora crassa cDNA - 7 Days Post-Cross Sexual Growth EXP.2 EXP.3 EXP.4 EXP.5 EXP.6 EXP.7 EXP.8 EXP.9 A A A A A Mauriceville Mauriceville FGSC 2225 (Mc1 A) Mauriceville FGSC 2225 (Mc1 A) Mauriceville FGSC 2225 (Mc1 A) Mauriceville-1c mat A (FGSC 2225) and ORS mat a (FGSC 2490) Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa A RIEN Mauriceville FGSC 2225 (Mc1 A) Neurospora crassa Mauriceville A Mauriceville FGSC 2225 (Mc1 A) Neurospora crassa Neurospora crassa RIEN RIEN Neurospora crassa A Sex (Sexe) Mauriceville Strain (Souche) Neurospora crassa Organism (Organisme) Tableau 4.2 Détail des informations expérimentales de N.crassa.(1/4) Neurospora crassa cDNA - 1 hour Oxidative Stress After 9 hours Vegetative Growth Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light EXP.1 EXP.10 Lib Name (Nom de la library) LIBRARY RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN Organ (Organe) RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN 64 Tissue type (Type de tissus) Neurospora crassa cDNA - 48 hours Unfertilized Growth in Crossing Medium Neurospora crassa evening cDNA library Neurospora crassa morning cDNA library Neurospora crassa sexual cDNA library, Uni-zap vector system Mycelial Subtracted Mycelial Perithecial Subtracted Perithecial Conidial Subtracted Conidial Westergaards Nelson et al. (1997) conidial library EXP.11 EXP.12 EXP.13 EXP.14 EXP.15 EXP.16 EXP.17 EXP.18 EXP.19 EXP.20 EXP.21 EXP.22 Mating type A Mating type A Mating type a (fluffy), fertilized Mating type a (fluffy), fertilized Mating type A Mating Type A Mating Type A wild type 74-OR23-IV A (FGSC 2489) 74-OR23-IV A (FGSC 2489) fl a fl a (FGSC 4347) 74-OR23-IV A 74-OR23-IV A (FGSC 2489) 74-OR23-IV A (FGSC 2489) Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa Neurospora crassa 74-OR23-IV A RIEN bd, frq7 A Neurospora crassa Neurospora crassa RIEN Strain 30-7 (bd; A) Neurospora crassa Mating Type A RIEN RIEN Sex (Sexe) Mauriceville Strain (Souche) Neurospora crassa Organism (Organisme) Tableau 4.3 Détail des informations expérimentales de N.crassa.(2/4) Lib Name (Nom de la library) LIBRARY RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN Organ (Organe) Conidia Unfertilized sexual tissue Conidia Conidia Perithecia Perithecia (fruiting bodies) Mycelium Mycelium perithecia (fruiting bodies) 65 tissue harvested following 22hr growth in dark tissue harvested following 22hr growth in dark RIEN Tissue type (Type de tissus) pBluescriptSK- pGEM-T pBluescriptSK- pBluescriptSK- pBluescriptSK- pBluescriptSK- pBluescriptSK- pBluescriptSK- pBluescriptSK- pBluescriptSK- RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN EXP.2 EXP.3 EXP.4 EXP.5 EXP.6 EXP.7 EXP.8 EXP.9 EXP.10 Vector (Vecteur) RIEN Develop. stage (Stade de develp) EXP.1 LIBRARY XhoI XhoI XhoI XhoI XhoI XhoI XhoI XhoI RIEN XhoI R. Site 1 RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN Cell type (Type cellulaire) RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN E. coli MosBlue RIEN Lab host (Lab hôte) 66 Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Four separate cultures were incubated in 1X Vogel's/1% sorbose/0.1% sucrose for 9 h at 30 degrees C with orbital shaking at 200 rpm, and then to each was added (final concentrations indicated) either (1) 10 mM hydrogen peroxide (2) 750 micromolar sodium arsenite (3) 2.0 mM dithiothreitol and (4) 50 micromolar cadmium chloride and incubation was continued for 1 h. Poly(A) mRNA was purified from a 7 day crossing-culture of Mauriceville-1c mat A (FGSC 2225)crossed with ORS mat a (FGSC 2490). Cells were grown in Westergaard's medium for 5 days prior to initiating crossing. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% sucrose for 9 h at 30 degrees C with orbital shaking at 200 rpm; sodium chloride was added to a final concentration of 0.68M and incubation continued for 1 h. Poly(A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% sucrose for 7 h at 34 degrees C with orbital shaking at 125 rpm. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% sucrose for 24 h at 30 degrees C with orbital shaking at 200 rpm. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% sucrose for 9 h at 30 degrees C and then for 1 h at 45 degrees C with orbital shaking at 200 rpm. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% glucose for 9 h at 30 degrees C with orbital shaking at 200 rpm, and then for 1 h in 1X Vogel's medium lacking glucose. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Cells were grown in 1X Vogel's medium/2% sucrose for 9 h at 30 degrees C with orbital shaking at 200rpm, and then for 1 h in 1X Vogel's medium lacking ammonium nitrate. Transcripts down-regulated in N. crassa nuc-2A mutant strain grown under Pi shortage at acid pH. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from Promega. Cells were grown in 1X Vogel's medium/0.5% arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm. DESCRIPTION Tableau 4.4 Détail des informations expérimentales de N.crassa. (3/4) EcoRI EcoRI EcoRI EcoRI EcoRI EcoRI EcoRI EcoRI RIEN EcoRI R. Site 2 pBlueScript SK (-) Fruiting Body EXP.22 EXP.21 EXP.20 EXP.19 EXP.18 germinating conidia RIEN pBluescriptSK- pBlueScript SK (-) Perithecia EXP.17 Unfertilized sexual stage pBlueScript SK (-) Mycelium EXP.16 pBlueScript SK (-) pBlueScript SK (-) Mycelium Germinating conidia pBluescriptSK- sexual EXP.14 pBlueScript SK (-) pBluescriptSK- RIEN EXP.13 germinating conidia pBluescriptSK- RIEN EXP.12 EXP.15 pBluescriptSK- Vector (Vecteur) RIEN Develop. stage (Stade de develp) EXP.11 LIBRARY RIEN EcoRI EcoRI RIEN EcoRI RIEN EcoRI EcoRI XhoI XbaI XbaI XhoI RIEN XhoI XhoI RIEN XhoI RIEN XhoI XhoI EcoRI EcoRI EcoRI EcoRI R. Site 2 RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN RIEN Cell type (Type cellulaire) RIEN E. coli E. coli RIEN E. coli RIEN E. coli E. coli E. coli strain SOLR RIEN RIEN RIEN Lab host (Lab hôte) mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours. Westergaard's medium (Nitrogen limiting). Floating mycelial mats grown at 25C for 36 hours. mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours. mRNA isolated from germinating conidia, grown in 1x Vogel's, 2% sucrose for 4.5 hours. 67 mRNA isolated from 5 day old perithecia (fruiting bodies) of the fluffy strain fl a (Mating type a), fertilized with conidia from 74-OR23-IV A (Mating type A). mRNA isolated from 5 day old perithecia (fruiting bodies) of the fluffy strain fl a (Mating type a), fertilized with conidia from 74-OR23-IV A (Mating type A). 2% sucrose for 24 hours. 2% sucrose for 24 hours. 5' end of cDNA cloned into EcoRI site of pBluescript; 3' end of cDNA cloned into XhoI site of pBluescript. See: Bell-Perdersen,D., et al. PNAS 93:13096,1996. 5' end of cDNA cloned into XbaI site of pBluescript; 3' end of cDNA cloned into EcoRI site of pBluescript. See: Bell-Perdersen,D., et al. PNAS 93:13096,1996. 5' end of cDNA cloned into XbaI site of pBluescript; 3' end of cDNA cloned into EcoRI site of pBluescript. Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Two cultures were grown in Westergaard's medium (synthetic cross medium) for 48 h at 25 degrees C, one with orbital shaking at 200 rpm, and one without shaking.. DESCRIPTION Tableau 4.5 Détail des informations expérimentales de N.crassa. (4/4) R. Site 1 Chapitre 4. La Conception Extraction automatique des termes o Dans un deuxième temps, nous avons utilisé l’approche statistique associée à un outil d’extraction automatique : Automatic Keyphrase Extractor (K.E.A) [Jon, 02] qui identifie les termes-clés (termes candidats) par le calcule de valeurs deux métriques : TF×IDF et Première occurrence pour chaque terme-candidat. · Outil d’extraction des termes-clés : K.E.A (Automatic Keyphrase Extraction) K.E.A extrait automatiquement les termes-clés à partir de textes intégraux des documents. L'ensemble de tous termes-candidats dans un document sont identifiés à l'aide du traitement lexical, des métriques sont calculées pour chaque terme, et un apprentissage automatique est utilisé pour générer un classificateur qui détermine les termes qui devraient être assignés comme étant des termes clés. Un modèle de prédiction est construit à partir de documents d’apprentissage avec les termes-clés connue, puis utilise le modèle de trouver termes-clés dans les nouveaux documents. Deux métriques sont calculées dans l'algorithme : TF×IDF et Première occurrence. Figure 4.3 Processus d’apprentissage et d’extraction de K.E.A. 68 Chapitre 4. La Conception Le processus d’extraction K.E.A est décrit dans la figure 4.3 comporte deux phases : 1. Apprentissage : un modèle est créé pour l'identification des termes-clés en utilisant des documents d’apprentissage où les termes-clés de l’auteur sont connus. 2. Extraction : les termes-clés sont choisis à partir d'un nouveau document, en utilisant le modèle ci-dessus. 2.4. Résultats de l’extraction des termes o Résultats de l’extraction manuelle des termes Le tableau 4.6 donne le résultat de l’extraction manuelle des termes pour l’aspect morphologique et le tableau 4.7 donne le résultat de l’extraction manuelle des termes pour l’aspect expérimentale à partir d’une fiche d’EST par expérience pour les deux champignons d’étude. 69 {Mauriceville-1c (FGSC_2225), Nuc-2, 74-OR 23-IV (FGSC_2489), bd_frq7, bd_30-7, fl (FGSC_4347), ORS (FGSC_2490)} {Mating type A, Mating type a, S mat+, s} RIEN {Perithecia (fruiting bodies), Mycelium, Conidia} { Mycelium, Perithecia, Fruiting Body, Germinating conidia, Sexual stage,Unfertilized sexual stage} {pBluescriptSK(-), pGEM-T} {XhoI, EcoRI} {XhoI, EcoRI} RIEN {E. coli, Mos-Blue, E. coli strain SOLR} Strain (Souches) Sex (Sexe) Organ (Organe) Tissus type (Types de tissus) Develop. stage (Stades de développement) Vector (Vecteur) R. Site 1 R. Site 2 Cell type (Type cellulaire) Lab host (Laboratoire hôte) Tableau 4.6 Résultats de l’extraction manuelle des termes (aspect morphologique). Valeurs Critères 70 {Amino-acid (Arginine), Sugar (Glucose, Sucrose), Vitamines (Biotin)} {Pi shortage} {Acid} {Morning, Evening} {Osmostic stress, Oxidative stress, Heat shock stress} {Constant light, Dark} { Speed--0 rpm, Speed--125 rpm, Speed--200 rpm} Supplements (Suppléments) Inssuficiences (Insuffisances) PH medium (PH du milieu) Relevent moment (Moment de prélèvement) Stress (Stress) Light (Lumière) Orbital Staking (Agitation) Tableau 4.7 Résultats de l’extraction manuelle des termes (aspect expérimental). {1h, 4h, 4 h et ½, 7h, 9h, 22h, 24h, 36h, 48h, 2days, 5days, 7days} {Vogel's medium, Vogel's medium lacking glucose, Vogel's medium lacking ammonium nitrate., Westergaard's medium, Westergaard's medium (Nitrogen limiting) } Medium (Milieux de culture) Duration (Durée) Valeurs Critères 71 Chapitre 4. o La Conception Résultats de l’extraction automatique des termes · Phase d’apprentissage : Durant cette phase le corpus de textes passe par trois étapes principales : - Etape 1 : Prétraitement des documents Chaque fiche d’EST est traitée séparément ; tout format ou structuration du document est supprimé, le but étant de normaliser le texte c’est-à-dire de diminuer « le bruit » et améliorer la qualité du processus global. Voici le résultat de la fiche après normalisation: {Poly (A) mRNA was purified from the Mauriceville 1c mat A strain (FGSC 2225) using the PolyAttract SYSI kit from Promega Cells were grown in 1X Vogel's medium 0.5% arginine 50(ng/ml) biotin 2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm}. Ensuite, un Tokenzieur est appliqué pour le découpage du texte en token (mots et ponctuation) et pour étiqueter les mots du texte c’est-à-dire, chaque mot est identifié comme étant un nom, un verbe ou un complément, etc. Voici un exemple pour la première phrase de texte : {Poly(A /NP, ) ) ), mRNA /NN, was /VBD, purified/VVN, from/IN, the DT, Mauriceville-1c/NP, mat_A/NN, strain/NN, ( ( (, FGSC_2225/NP, ) ) ), using/VVG, the/ DT, PolyAttract/NP, SYSI/NP, kit/NN, from /IN, Promega NP }. Enfin, un Lemmatiseur (chaque mot devient masculin singulier) est aussi employé ainsi qu’un radicaliseur (chaque mot est rendu à sa forme racine) exemple : {were devient be, grown devient grow et shaking devient shak}. - Etape 2 : Génération des termes-candidats Chaque mot du corpus de textes est considéré par l’outil K.E.A dont la stratégie de sélection des termes fait appel à la méthode de Naïve Bayes détermine si oui ou non ce mot est un terme-candidat ou pas. 72 Chapitre 4. La Conception - Etape 3 : Construction du modèle D’abord, deux métriques sont calculées pour chaque termes-candidats TFXIDF, une mesure de la fréquence d’une phrase dans un document par rapport à sa rareté dans l’utilisation générale, et la First occurrence, qui est la distance dans le document de la première phrase apparente. w TFXIDF : Cette métrique compare la fréquence d'utilisation d’une phrase dans un document particulier avec la fréquence de cette expression dans l'usage général. La formule de TFXIDF pour P phrase dans le document D est: ࢀࡲ ൈ ࡵࡰࡲ ൌ Où ࢌ࢘ࢋሺࡼǡ ࡰሻ ࢊࢌሺࡼሻ ൈ െࢍ ࢙ࢠࢋሺࡰሻ ࡺ 1. freq (P, D) est le nombre de fois où P se produit dans D 2. seize : taille (D) est le nombre de mots dans D 3. df (P) est le nombre de documents contenant P dans le corpus global 4. N est la taille du corpus global - Le deuxième terme de l'équation est le log de la probabilité que cette phrase apparaît dans tout document du corpus (annulé parce que la probabilité est inférieure à un). Si le document n’ai t pas une partie du corpus global, df (P) et N sont tout les deux incrémentés à un avant que le terme soit évalué, afin de simuler son apparition dans le corpus. w Première occurrence : La deuxième fonction, la première occurrence, est calculée selon le nombre de mots qui précèdent la première apparition de la phrase, divisé par le nombre de mots dans le document. Le résultat est un nombre entre 0 et 1 qui représente la façon dont une grande partie du document précède la première apparence de la phrase. Ensuite, une table de discrétisation pour chaque métrique est générée à partir des données d'apprentissage. Un tableau est donné avec une série de plages de valeurs de chaque métrique. Cette discrétisation est réalisée en utilisant la méthode de discrétisation supervisée décrite dans les travaux de [Med, 05]. 73 Chapitre 4. La Conception Les tableaux (de 4.8 à 4.9) montrent un du résultat de la construction du modèle d’apprentissage obtenu par l’extraction automatique des termes effectué pour un échantillon de 500 fiches d’ESTs en fonction de la métrique TF*IDF et Première occurrence. Des graphes qui spécifient les résultats de ces métriques sur notre corpus biologique en fonction de la taille de l’échantillon d’apprentissage sont donnés en Annexe D. 74 0.03060736 P [TF*IDF | yes] 0.07125777 0.00314136 Rang de discrétisation 0.023912 0.01151832 15 [0.15825-inf] 0.06169297 0.13507853 11 [0.009388-0.015174] 0.01004304 0.02198953 7 [0.002828-0.002877] 0.06169297 0.26910995 3 [0.001001-0.001114] Tableau 4.8 Résultat de la construction du modèle pour la métrique TF*IDF. 0.06701571 14 [0.071499-0.15825] 13 [0.062838-0.071499] P [TF*IDF | no] 0.21472979 0.00047824 P [TF*IDF | yes] 0.00104712 0.06910995 10 [0.006038-0.009388] 9 [0.003702-0.006038] P [TF*IDF | no] 0.06312769 0.00047824 P [TF*IDF | yes] 0.00628272 0.07434555 6 [0.002511-0.002828] 5 [0.001381-0.002511] P [TF*IDF | no] 0.06073649 0.03252033 P [TF*IDF | yes] 0.06701571 2 [0.000885-0.001001] 0.14136126 1 [-inf-0.000885] P [TF*IDF | no] Caractéristique : TF*IDF 0.1300813 0.00104712 12 [0.015174-0.062838] 0.08464849 0.00104712 8 [0.002877-0.003702] 0.1539933 0.13089005 4 [0.001114-0.001381] 75 3 0.17852029 P [première occurrence | yes] 0.13221957 0.21063608 0.10835322 0.00104275 Tableau 4.9 Résultat de la construction du modèle pour la métrique Première occurrence. 0.00104275 P [première occurrence | no] 19 [0.615385-inf] 18 [0.307692-0.615385] 17 [0.258621-0.307692] 0.00208551 0.0071599 0.08400955 P [première occurrence | yes] 0.06673618 0.00047733 0.00104275 P [première occurrence | no] 15 [0.246154-0.25] 14 [0.241379-0.246154] 13 [0.215686-0.241379] 0.00104275 0.00954654 0.22529833 P [première occurrence | yes] 0.03128259 0.00095465 0.00104275 P [première occurrence | no] 11 [0.173077-0.2] 10 [0.125-0.173077] 9 [0.08-0.125] 0.00104275 0.03389021 0.02386635 P [première occurrence | yes] 0.28467153 0.00047733 0.00104275 P [première occurrence | no] 7 [0.072727-0.078947] 6 [0.06-0.072727] 5 [0.057971-0.06] 0.00104275 [0.051282-0.054545] 0.06252983 0.13031026 P [première occurrence | yes] 0.07090719 Rang de discrétisation 0.00047733 0.00104275 2 [0.05-0.051282] 1 [-inf-0.05] P [première occurrence | no] Caractéristique : Première occurrence 4 0.00047733 0.13451512 [0.25-0.258621] 16 0.00047733 0.07194995 /[0.2-0.215686] 12 0.00047733 0.05109489 [0.078947-0.08] 8 0.00047733 0.06673618 [0.054545-0.057971] 76 Chapitre 4. La Conception · Phase de test : Pour sélectionner des termes-clés d'un nouveau document, K.E.A détermine les termes candidats et les valeurs des métriques associées, le modèle construit lors de la phase d’apprentissage est appliqué. Lorsque le modèle Naïve de Bayes est utilisé sur un terme candidat avec les deux métriques deux quantités sont calculées: ሾሿ ൌ ܻ ܻܰ TF×IDF ሾȁሿdistanceሾȁሿ (1) Et une équation similaire est calculée pour P[no], où Y est le nombre d’instances positives dans le fichier d’apprentissage —que l’auteur à identifier comme étant des termes-clés— et N est le nombre d’instances négatives— les termes-candidats qui ne le sont pas. (L’estimateur Laplace est utilisé pour éviter la probabilité zéro. Simplement Y et N sont remplacés par Y+1 et N+1.) Une probabilité totale est calculée de la façon suivante : ൌ ሾݏ݁ݕሿȀሺሾݏ݁ݕሿ ሾ݊ሿሻ (2) La figure 4.4 suivante donne un extrait du résultat de l’extraction des nouveaux termes-clés obtenu lors de la phase de test effectué pour un échantillon de 100 fiches d’ESTs de N.crassa. -- Reading instance -- Converting instance -- Document: 4VG1 -- Keyphrases and feature values: 'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True strain,strain,0,0.25,0.669565,2,True -- 2.0 correct -- Reading instance -- Converting instance -- Document: 4VG0 -- Keyphrases and feature values: 'neurospor cr','Neurospora crassa',0,0.05,0.669565,1,True strain,strain,0,0.25,0.669565,2,True -- 2.0 correct -- Reading instance -- Converting instance -- Document: 7VG7 -- Keyphrases and feature values: fgsc,FGSC,0.014516,0.28,0.669565,1,True 'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True strain,strain,0,0.24,0.669565,3,True -- 3.0 correct -- Reading instance -- Converting instance -- Document: 7VG6 -- Keyphrases and feature values: fgsc,FGSC,0.014516,0.28,0.669565,1,True 'neurospor cr','Neurospora crassa',0,0.06,0.669565,2,True strain,strain,0,0.24,0.669565,3,True -- 3.0 correct Figure 4.4 Extrait du résultat obtenu pour 100 fiches d’ESTs (Phase de test). 77 Chapitre 4. La Conception Au cours de notre expérimentation, nous avons voulu évaluer l’effet de la taille de l’échantillon test sur le corpus global. Le tableau 4.10 indique le nombre moyen de termescandidats extraits durant cette phase de test : Taille de 100 500 1 000 5 000 10 000 50 000 100 000 fiches fiches fiches fiches fiches fiches fiches test d'ESTs d'ESTs d'ESTs d'ESTs d'ESTs d'ESTs d'ESTs Nombre moyen 4.23 4.28 4.07 4.2 3.95 3.94 3.94 des termes- +/- +/- +/- +/- +/- +/- +/- candidats 0.99 0.94 1.03 1.01 1.03 1.03 1.03 l'échantillon de extraits Tableau 4.10 L’effet de la taille de l’échantillon test sur le corpus global. o Nécessité de l’intervention de l’expert Nous reprenons le paragraphe précédemment écrit dans le chapitre 3 du mémoire « Aucun outil ou méthode ne permet aujourd’hui de créer de façon totalement non supervisée des ressources sémantiques de bonne qualité [Lav, 07]. La plupart des outils disponibles pour la construction d’ontologie à partir de textes sont décrits comme nécessitant l’intervention humaine [Lav, 07] à différents niveaux ». Car dans notre cas, il est nécessaire de valider les termes choisis par K.E.A à ce stade par les experts pour ces termes qui représentent « la prière angulaire » de notre ontologie biologique. Le tableau 4.11 expose trois exemples de trois expérimentations dont les termes-clés ont été extraits selon un modèle construit par apprentissage à partir d’un ensemble de 100 000 fiches d’EST (colonne 2) dont la terminologie a été complétée par le biologiste (colonne 3). 78 3 2 Neurospora crassa Crossing Medium Neurospora crassa Organism: neurospor cr, neurospora crassa, strain,strain nuc-2A, mutant strain, Pi shortage, acid pH orbital shaking, 200 rpm, without shaking. Westergaard’s medium, 48 h, 25 degrees C, with FGSC neurospor cr, neurospora crassa cr med, cross medium, shak, shaking, strain, strain Mauriceville-1c, mat A, strain (FGSC 2225), ,orbital shaking 125 rpm. 50(ng/ml) biotin, 2% glucose 4 h 30 degree C (FGSC 2225), Vogel's medium,0.5% arginine, Neurospora crassa, Mauriceville-1c, mat A, strain Termes complétés par le biologiste mauricevil 1c ma, Mauriceville-1c mat, fgsc, strain 1c ma, Mauriceville-1c mat, fgsc, FGSC, strain, neurospor cr,' neurospora crassa cr, mauricevil Termes extraits par K.E.A Tableau 4.11 Trois exemples d'extraction de termes avec l'outil KEA pour trois expériences (colonne 2) complétée par le biologiste (colonne 3). at acid pH. Description: Transcripts down-regulated in N. crassa nuc-2A mutant strain grown under Pi shortage Neurospora crassa SSH Library AR01 Lib Name: C, one with orbital shaking at 200 rpm, and one without shaking. Two cultures were grown in Westergaard’s medium (synthetic cross medium) for 48 h at 25 degrees Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225). Mauriceville Organism: Strain: Neurospora crassa cDNA - 48 hours Unfertilized Growth in Lib Name: arginine/50(ng/ml) biotin/2% glucose for 4 h at 30 degree C with orbital shaking at 125 rpm. using the Poly Attract SYSI kit from Promega. Cells were grown in 1X Vogel's medium/0.5% Description: Poly (A) mRNA was purified from the Mauriceville-1c mat A strain (FGSC 2225) A Sex: Neurospora crassa Organism: Mauriceville Lib Name: 1 Strain: Neurospora crassa cDNA - 4 hours Vegetative Growth in constant light Description N° 79 Chapitre 4. La Conception 2.5. Exploitation des termes de l’ontologie pour le Clustering o Présentation du logiciel TANAGRA TANAGRA est un logiciel « open source » librement accessible sur le web et gratuit de Data Mining destiné à l’enseignement et à la recherche, diffusé sur internet (http://eric.univ-lyon2.fr/~ricco/tanagra). Il implémente une série de méthodes de fouilles de données issues du domaine de la statistique exploratoire, de l’apprentissage automatique et des bases de données. Son premier objectif est d’offrir aux étudiants et aux experts d’autres domaines (médecine, bio-informatique, marketing, etc.) une plate-forme facile d’accès, respectant les standards des logiciels actuels, notamment en matière d’interface et de mode de fonctionnement, il doit être possible d’utiliser le logiciel pour mener des études sur des données réelles. Le second objectif est de proposer aux chercheurs une architecture leur facilitant l’implémentation des techniques qu'ils veulent étudier, de comparer les performances de ces algorithmes. TANAGRA se comporte alors plus comme une plateforme d'expérimentation qui leur permettrait d'aller à l'essentiel en leur épargnant toute la partie ingrate de la programmation de ce type d'outil, notamment la gestion des données. o Utilisation du Clutering par TANAGRA · Description des données Pour la construction du « Clustering » dans TANAGRA, le fichier CH.arff (figure 4.5) où figurent à la fois les 29 attributs qui correspondent aux différentes fiches d’ESTs des deux champignons et les valeurs calculées TF×IDF des différents termes extraits de ces fiches, est utilisé. 80 Chapitre 4. La Conception @relation champignons @attribute ASC real @attribute HET real @attribute MYC-PA real @attribute PER-OLD real @attribute RAM real @attribute SEN real @attribute YOU-PER real @attribute OX real @attribute S-CO real @attribute SSH real @attribute S-PER real @attribute 7VG real @attribute 24VG real @attribute CO real @attribute GD real @attribute MO real @attribute ND real @attribute OST real @attribute PER-NC real @attribute SE real @attribute S-MYC real @attribute WES real @attribute 4VG real @attribute MYC-NC real @attribute NEL real @attribute UG real @attribute 7PC real @attribute EV real @attribute HS real Description des attributs (variables) manipulés @data 1,928 2,857 6,954 1,406 1,353 1,313 1,283 0,052 1,257 1,842 1,731 0,012 1,179 1,936 2,873 1,564 2,391 1,073 2,489 1,557 1,436 1,364 1,315 2,061 1,083 2,156 1,405 1,388 1,325 1,281 1,285 1,922 1,781 0,275 1,256 1,8 1,694 1,729 1,181 0,255 1,646 1,164 1,385 2,057 0,682 0,938 1,637 1,375 1,283 1,279 1,244 -0,24 1,421 2,116 0,063 1,369 2 0,818 1,081 1,281 1,111 1,147 1,448 1,163 1,21 1,543 1,524 1,078 1,203 1,182 1,052 1,124 1,27 1,044 1,092 1,523 1,109 1,17 2,771 1,034 1,042 1,64 1,1 1,062 2,862 1,023 1 1,363 1,02 0,982 1,631 1,03 0,94 2,426 1,115 0,688 5,118 1,017 0,893 1,037 1,01 0,879 1,24 1,006 0,844 1,442 1,001 0,822 1,58 0,993 0,686 2,055 0,991 0,783 1,674 0,942 1,338 1,299 1,259 1,207 1,206 -0,17 0,94 1,015 1,083 1,082 1,079 1,077 0,484 0,842 1,026 1,125 1,118 1,112 1,105 0,379 0,768 0,963 1,131 1,122 1,114 1,106 0,376 0,833 0,938 1,105 1,099 1,093 1,088 0,693 0,842 1,054 1,058 1,057 1,056 1,054 0,811 0,834 1,016 1,049 1,048 1,047 1,046 0,907 0,638 0,967 1,08 1,076 1,072 1,068 0,983 0,812 0,955 1,037 1,037 1,037 1,036 0,991 0,574 0,853 1,065 1,062 1,058 1,055 1,113 0,791 0,907 1,029 1,029 1,028 1,028 1,134 0,767 0,879 1,026 1,026 1,026 1,025 1,209 0,627 0,785 1,046 1,044 1,042 1,04 1,481 0,456 0,844 1,037 1,036 1,035 1,033 1,398 0,542 0,814 1,034 1,033 1,032 1,03 1,519 0,66 0,829 1,02 1,02 1,02 1,02 1,353 0,646 0,795 1,015 1,016 1,016 1,016 1,308 0,628 0,683 1,014 1,015 1,015 1,015 1,479 0,569 0,614 1,009 1,01 1,011 1,011 1,433 0,714 0,734 1,002 1,004 1,004 1,005 1,264 1,222 1,662 1,595 0,251 1,549 1,147 1,189 1,528 1,496 0,215 1,451 1,13 0,862 1,166 1,251 1,221 1,198 1,163 0,126 1,164 1,425 1,417 0,191 1,371 1,116 1,073 1,187 1,221 0,194 1,103 1,285 1,259 0,308 1,121 1,297 1,273 0,118 1,085 1,185 1,182 0,259 1,055 1,104 1,111 0,395 1,047 1,072 1,103 0,732 1,064 1,069 1,146 1,079 1,036 1,022 1,082 0,97 1,055 1,071 1,12 1,458 1,028 1,02 1,057 1,187 1,026 1,041 1,058 1,566 1,036 1,099 1,081 2,125 1,033 1,063 1,055 1,838 1,028 1,026 1,026 1,57 1,019 0,993 1 1,306 1,016 0,964 0,979 1,183 1,014 0,93 0,977 1,423 1,011 0,897 0,951 1,255 1,005 0,896 0,943 1,076 1,235 1,088 1,22 1,085 1,263 1,089 1,171 1,068 1,13 1,064 1,117 1,054 1,12 1,052 1,114 1,046 1,117 1,041 1,072 1,035 1,068 1,03 1,071 1,027 1,041 1,025 1,01 1,022 0,983 1,016 0,946 1,018 0,954 1,012 0,924 1,01 0,928 1,006 ………. Description des observations Figure 4.5 Format des données manipulées. · Importation du fichier Pour charger les données, le menu FILE / NEW est activé. Une boîte de dialogue apparaît, pour spécifier le répertoire adéquat. Nous sélectionnons le fichier CH.arff, puis nous validons. 81 Chapitre 4. La Conception 1 2 Figure 4.6 Importation du fichier CH.arff sous TANAGRA. TANAGRA permet de charger automatiquement les données du fichier CH.arff. Il indique que 29 variables et 47 observations ont bien été importées. Fichier CH .arff chargé Figure 4.7 Chargement des données sous TANAGRA. 82 Chapitre 4. · La Conception Définition des variables Les variables de l’analyse sont définies avec l’insertion du composant « DEFINE STATUS » dans le diagramme en utilisant le raccourci de la barre d’outils. Dans l’onglet « INPUTT » sont placés toutes les variables. Figure 4.8 Définition des données sous TANAGRA. · Définition de la méthode : Le Clustering Il nous reste alors à placer le composant VARHCA (onglet CLUSTERING) dans le diagramme, par glisser-déposer. Pour visualiser les résultats, nous activons le menu contextuel VIEW. 83 Chapitre 4. La Conception Figure 4.9 Définition de la méthode du Clustering sous TANAGRA. o Résultats du Clustering Le résumé de la partition ou « CLUSTER SUMMARY » décrit le nombre de clusters construits (3 clusters dans notre cas) et le nombre de fiches d’ESTs contenues dans chaque cluster : 6 fiches d’ESTs pour le premier cluster, 18 fiches d’ESTs pour le second et 5 fiches d’ESTs pour le troisième cluster. La variabilité expliquée ou « VARIATION EXPLAINED » indique la valeur propre expliquée à l’intérieur de chaque groupe. La proportion expliquée ou « PROPORTION EXPLAINED » indique la proportion de la valeur propre expliquée à l’intérieur du groupe. La valeur de la variabilité est égale à 0,9237 pour le premier cluster de ce groupe. Figure 4.10 Nombres de clusters construits par la méthode du Clustering. 84 Chapitre 4. La Conception La liste des variables par cluster « CLUSTER MEMBERS » et les « R-SQUARE VALUES » recensent les variables dans chaque groupe. Plusieurs indicateurs permettent d’apprécier la qualité de l’affectation : « OWN CLUSTER » indique le R² de la variable avec son groupe c’est-à-dire le carré de la corrélation de la variable avec le représentant de la classe, le premier axe de l’ACP sur les variables composant le groupe ; « NEXT CLOSEST » indique le R² de la variable avec le groupe le plus proche, si cette valeur est plus grande que la première, il y a matière à s’inquiéter. L’indicateur (1-R² ratio) indique justement le rapport entre (1-R² own cluster) et (1-R² next closest). Plus petite est sa valeur, meilleure est l’affectation de la variable au groupe. Si elle est supérieure à 1, cela voudrait dire que la variable est plus corrélée avec un autre cluster qu’avec son propre groupe d’appartenance. Figure 4.11 Résultat du Clustering. Dans notre exemple, VARHCA a proposé une typologie en 3 clusters, 84,51% de la variabilité totale est restituée par ce partitionnement. Les variables semblent bien assorties à 85 Chapitre 4. La Conception leurs classes respectives. Dans le pire des cas, 1-R² ratio est égal à 0.5958 pour la variable ND (Nitrogen Deprivation) dans le 2ème cluster. Interprétation des classes. Le tableau des corrélations des variables avec les clusters (« CLUSTER CORRELATIONS – STRUCTURE ») permet d’interpréter les groupes de variables. Il faut le lire en parallèle avec le tableau précédent. Figure 4.12 Résultat des corrélations du Clustering. Nous disposons des corrélations de chaque variable avec l’ensemble des classes. Lorsque que la corrélation est supérieure à 0.7 (ou inférieure à –0.7), ce paramètre est modifiable, elle est mise en surbrillance et elle est recensée dans la colonne MEMBERS. Dans l’idéal, chaque variable ne devrait être significativement corrélée qu’avec une et une seule classe. 86 Chapitre 4. La Conception La première classe associe les variables : SEN, YOU-PER, OX, S-CO, SSH, S-PER, 7VG, 24VG. Ces variables sont fortement corrélées ensembles. Les autres variables sont très peu corrélées avec cette classe. La deuxième classe associe les variables : MO, ND, OST, PER-NC, SE, S-MYC, WES, 4VG, MYC-NC, NEL, UG, 7PC, EV, HS. La troisième classe associe les variables : 24VG, CO, GD, MO, ND, OST, PER-NC, SE, NEL, UG, EV. Il est possible sur les détails de la variation des clusters grâce au tableau suivant et son dendrogramme associé. Figure 4.13 Résultat de la variation des clusters. 87 Chapitre 4. La Conception Figure 4.14 Résultat du dendrogramme. 88 Chapitre 4. La Conception 3. Conception Cette partie présente la conception de l’ontologie biologique du domaine, ainsi que l’architecture du système qui va exploiter cette dernière pour répondre aux requêtes des utilisateurs en tenant compte de la sémantique de cette dernière. 3.1. Choix de la méthode de construction de l’ontologie Après les étapes de standardisation des extractions et de sélection des termes dans la partie précédente, l'ontologie est construite selon la méthode proposée par l'Université de STANFORD [Noy, 02] (voir Annexe C), car elle comporte des phases claires, simples et faciles à comprendre. L’éditeur d'ontologie « Protégé » et « OBO Edit » ont été également utilisés. Tout comme dans l'approche eVoc [Kel, 03], il a été décidé de créer quatre ontologies afin de caractériser de manière complémentaire et quasi indépendante les aspects clés du contexte d'une expérience. o Critères Les critères pertinents pour orienter et évaluer une ressource terminologie ou ontologie sont présentés dans les travaux de [Bou, 03] : clarté, cohérence et capacité évolutive à définir un vocabulaire afin de décrire un domaine donné. Ces critères sont utilisés lors de la construction de notre ressource. La terminologie concernant la morphologie des organismes a été prise en considération ainsi que le côté expérimental de la culture. Les caractéristiques morphologiques concernent le type de souche qui peut être sauvage ou mutant, les stades de développement (du cycle sexué ou asexué) ou les types cellulaires de l'étude (ex. mycélium, thalle, périthèce, etc.) Pour le côté expérimental, le milieu de culture peut être soit adapté à la croissance soit au croisement, il peut contenir des suppléments moléculaires tels que des sucres, des acides aminés, ou des vitamines comme nutriments des champignons. La culture peut subir un choc thermique, un stress oxydatif ou osmotique, etc. 89 Chapitre 4. La Conception o Etapes de la construction de l’ontologie du domaine (Avec la méthode proposée par l'Université de Stanford) Etape 1 : Déterminer le domaine et la portée de l'ontologie : · Le domaine que couvre l'ontologie concerne les expériences réalisées sur les deux champignons filamenteux (N.crassa et P.anserina) avant d’obtenir la séquence d’EST, c’est-à-dire la description de l’échantillon biologique et des conditions de culture. · Le but de l'utilisation de notre ontologie est celui d’associer une information concernant l’échantillon biologique à chaque fiche d’EST. L’objectif de cette information ajoutée est de pouvoir définir des ensembles d’EST à partir d’un terme/critère de l’ontologie pour guider des études d’expression des gènes associés. · L'ontologie doit répondre aux requêtes des utilisateurs en proposant une description de l’échantillon biologique (souche, espèce) et de l’expérience conduite (conditions de culture, cycle de développement lors du prélèvement). · L'ontologie sera utilisée par les bio-informaticiens pour la caractérisation des fiches d’EST. · L'ontologie sera maintenue et enrichie par des experts du domaine : les biologistes et les bio-informaticiens Etape 2 : Réutiliser des ontologies existantes : Les ontologies mentionnées dans « l’état de l’art » présentent certaines limitations par rapport aux besoins de l’étude. De notre point de vue le niveau de détail de certaines ontologies biologiques est soit trop profond (CCO) ou trop grand (FAO) ; certaines ontologies sont espèces spécifiques, et souvent associées aux espèces modèles telles que la levure unicellulaire S. cerevisiae (APO, CCO) ou l’homme (eVOC, HGNC), et ne peuvent donc pas être appliquées aux espèces de champignons de l’étude N.crassa et P.anserina ; ou bien nous poursuivons d'autres objectifs ou ressources (GO, FWO, AFTOL-2, MGED, Tao, HKIS). Pour toutes ces raisons, et pour nous focaliser sur les champignons de l'étude, N.crassa et 90 Chapitre 4. La Conception P.anserina, nous avons développé notre propre une ontologie propre a été développée à partir de, afin de fouiller les données associées aux EST à l'aide d'un modèle de connaissance du contexte expérimental. Etape 3 : Énumérer les termes importants de l'ontologie : L'étude faite sur le domaine (grâce notamment à l’extraction automatique des termes) a permis de dégager une liste importante de termes. Ne pouvant pas les énumérer tous nous nous contentons de quelques exemples : mycélium, périthèces, hyphes, souches, conditions de culture, durée de la culture etc. Etape 4 : Définir les classes et la hiérarchie des classes : Les tableaux (de 4.12 à 4.19) ci-après décrivent les différentes classes et les sous classes associées qui ont pu être déterminées lors de notre étude. Les figures (de 4.15 à 4.18) sont les quatre ontologies construites à partir de ces tableaux. 91 Cellular cycle steps Cellular cycle steps Cellular cycle steps Cellular cycle steps Cellular cycle steps Asexual cycle steps Asexual cycle steps Asexual cycle steps Mycelium growth Sexual cycle steps Spore germination Conidium formation macro-conidium micro-conidium Thallus growth Mutinucleate differentiation Uninucleate differentiation Différenciation d’une cellule de micro-conidie contenant au plus un nucleus par cellule. Différenciation d’une cellule macro-conidie contenant plus d’un nucleus par cellule. Formation de la conidie du champignon produite durant la phase asexuée. Croissance du thalle. Germination de la structure de multiplication végétative ou de reproduction du champignon. 92 Etapes du cycle sexué : Reproduction qui abouti à une méiose ou fertilisation. Les deux parents se reproduisent. Croissance de la partie végétative du champignon. Etapes du cycle asexué : Reproduction qui n’abouti pas une méiose ou fertilisation. Un seul des parents se reproduit. Germination d’une spore se formant dans un asque du champignon. Série d’événements qui se observée dans une cellule où se produit la division et la duplication. Description Tableau 4.12 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (1/3) Asexual cycle steps Cellular cycle steps - Sous classes Ascospore germination Cellular cycle steps Classes Concepts Sexual cycle steps Sexual cycle steps Sexual cycle steps Sexual cycle steps Meiose Perithecuim Proto-perithecium Sexual organ differentiation Sexual organ differenciation Cellule de micro-conidie du champignon. Cellule de l’ascogone du champignon. Différenciation des organes sexués. Cellule de Proto-périthécium. Cellule du périthèce du champignon. Phase de reproduction du champignon. Fusion des gamètes mâles et femelles. Différenciation d’une spore contenue dans un asque. Description Tableau 4.13 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (2/3) Micro-conidium (MALE) Sexual organ differenciation Sexual cycle steps Fertilization Ascogonium (FEMALE) Sexual cycle steps Sous classes Ascospore differentiation Classes Concepts 93 Fertilization Pseudo-homothalism Individus sexuellement différents (mais indéterminés). Individus sexuellement identiques. Individus sexuellement différents. Partie végétative de l’hyphe. Cellule de Périthèce jeunes (<48h). Cellule de Périthèce âgée (>48h). Description Tableau 4.14 Classes et hiérarchie des classes de l’ontologie « Etapes du cycle cellulaire des champignons ». (3/3) Fertilization Homothalism Proto-perithecium Ascogenous hypha Fertilization Perithecuim Young perithecium Heterothalism Perithecuim Sous classes Old perithecium Classes Concepts 94 Figure 4.15 Ontologie « Etapes du cycle cellulaire des champignons ». 95 Cellular types Cellular types Cellular types Cellular types Mycelium Perithecium Proto-perithecium Thallus Cellule de macro-conidie contenant plus d’un nucleus par cellule. Cellule de micro-conidie contenant au plus un nucleus par cellule. Cellule Thalle du champignon. Cellule de Proto-périthèce du champignon. Cellule de périthèce du champignon. Partie végétative des champignons. Cellule unique en forme de filament plus ou moins ramifié. Cellule du champignon produite lors de la phase asexuée. Cellule pour la dissémination d’asque du champignon. Sac contenant les spores du champignon. Type des cellules du champignon. Description Tableau 4.15 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des champignons ». (1/2) Conidium Cellular types Hypha Mutinucleate macro-conidium Cellular types Conidium Conidium Cellular types Ascus Uninucleate micro-conidium Cellular types - Sous classes Ascospore Cellular types Classes Concepts 96 Trychogyne Crozier Self-fertile thallus Cellule Trygogyne du champignon. Cellule sous forme de crosse, qui va subir une méiose. Thalle auto-fertile du champignon. Cellule ascogène du champignon. Cellule de l’ascogone aérien du champignon. Mycélium contenant plus d’un nucleus par cellule. Cellule de la partie aérienne de l’hyphe. Description Tableau 4.16 Classes et hiérarchie des classes de l’ontologie « Types cellulaire des champignons ». (2/2) Ascogenous cell Ascogenous cell Thallus Proto-perithecium Perithecium Ascogenous hyphae Ascogenous cell Mycelium Hypha Sous classes Multinucleate mycelium Aerial hypha Classes Concepts 97 Figure 4.16 Ontologie « Types cellulaire des champignons ». 98 Strain Strain types Strain types Vegetative incompatibility Mutant (Souche mutante) Wild (Souche sauvage) Souches de référence. Souches issues des expériences en laboratoire. Individus incompatibles végétativement. Types de souches du champignon. Caractères morphologiques d’un champignon. Description Tableau 4.17 Classes et hiérarchie des classes de l’ontologie « Caractéristiques des souches des champignons ». Strain - Sous classes Strain types Strain features (Souche) Classes Concepts 99 Figure 4.17 Ontologie « Caractéristiques des souches des champignons ». 100 Culture condition Culture condition Culture condition Culture condition Culture condition Culture condition Culture medium Culture medium Culture duration Culture medium Light Orbital Staking Relevent moment Stress Cross medium Growth medium Décrit les milieux permettant la croissance du champignon. Décrit les milieux permettant la reproduction du champignon. Décrit les stress subi par le champignon. Décrit le moment de prélèvement du champignon. Décrit l’utilisation ou non de l’agitation dans l’expérience. Décrit l’utilisation ou non de la lumière dans l’expérience. Décrit les milieux de culture du champignon. Décrit les durées de culture du champignon. Décrit les conditions de culture du champignon. Description Tableau 4.18 Classes et hiérarchie des classes de l’ontologie « conditions de culture ». (1/2) - Sous classes Culture condition Classes Concepts 101 Stress Orbital Staking Orbital Staking Temperature stress With Orbital Staking Without Orbital Staking Décrit la non utilisation de l’agitation dans l’expérience. Décrit l’utilisation de l’agitation dans l’expérience. Décrit le stress par variation de température subi par le champignon. Décrit le stress oxydatif subi par le champignon. Décrit le stress osmotique subi par le champignon. Décrit les additifs rajoutés au milieu de culture. Décrit le PH du milieu de culture du champignon. Décrit les insuffisances du milieu de culture du champignon. Description Tableau 4.19 Classes et hiérarchie des classes de l’ontologie « conditions de culture ». (2/2) Stress Oxidative stress Culture medium Supplements Stress Culture medium PH medium Osmostic stress Culture medium Sous classes Insufficiences Classes Concepts 102 Figure 4.18 Ontologie « Conditions de culture des champignons ». 103 Chapitre 4. La Conception Etapes 5 & 6 : Définir les propriétés des classes, les relations et leurs facettes Les deux tableaux suivants décrivent respectivement les propriétés et les relations des différents concepts de l’ontologie : o Description des propriétés des classes Propriété Description Concept concerné Type Cardinalité Nom_concept Nom du concept Tous Chaine de 1, 1 caractères Synonyme Synonymes d’un Tous Chaine de concept caractères Définition du Définition Tous Chaine de concept Nom_scientifique 0, n 1, 1 caractères Nom scientifique Souches (Strain) Chaine de 1, n caractères Tableau 4.20 Propriétés des classes de l’ontologie. o Description des relations Relation Concept source Concept cible Description Cardinalité Avoir(1) Champignon Conditions de culture Représente les conditions de culture du champignon. 1, n Avoir(2) Conditions culture de Milieu de culture Représente les milieux de culture du champignon. 1, n Se produire Conditions culture de Moment de prélèvement Représente les moments de prélèvement du champignon. 1, n Subir Conditions culture de Stress Représente le stress induit dans le champignon. 1, n Tableau 4.21 Relations des classes de l’ontologie. 104 Chapitre 4. La Conception Etape 7 : Créer les instances des classes dans la hiérarchie. Les instances constituent l'ensemble des objets des classes. Le tableau suivant décrit les différentes instances associées à chaque classe de l’ontologie : Classe Instances Mutant {Mauriceville-1c (FGSC_2225), Nuc-2, 74-OR 23-IV (FGSC_2489), bd_frq7, bd_30-7, fl (FGSC_4347), ORS (FGSC_2490)} Vegetative incompatibility {het-S_het-s system, het-R_het-V system} Culture duration {1h, 4h, 4 h et ½, 7h, 9h, 22h, 24h, 36h, 48h, 2j, 5j} Temperature Stress {25°C, 30°C, 34°C, 45°C, 58°C, 120°C} With Orbital Staking {Speed--125 rpm, Speed--200 rpm} Insufficiences {Pi shortage} PH medium {Acid} Amino-acid {Arginine, Leucine, Lysine, Méthionine, Tryptophane} Sugar {Glucose, Sucrose} Vitamines {Biotin} Osmostic stress {Sodium chloride} Oxidative stress {Hydrogen peroxyde, Dithiothreitol, Cadium chloride} Cross medium { M2 medium, Westergaard medium} Growth medium {G medium, MR medium, RG medium, Sorbose medium, Vogel medium} Light {Constant light, Dark} Relevent moment {Morning, Evening} Tableau 4.22 Instances des classes de l’ontologie. 105 Chapitre 4. La Conception o Aspects spatio-temporels du développement des organismes Du fait du domaine d'application, nous avions à prendre en compte l'aspect spatiotemporel des termes liés aux stades de développement des champignons. Par exemple, le terme « périthèce » désigne l'organe de fructification des champignons, mais il définit également un moment précis de leur cycle de vie. Deux solutions sont possibles : soit construire une ontologie unique de «développement», soit construire une ontologie pour chaque aspect, l’une pour l'espace et l'autre pour le temps. L'organisation d'une ontologie unique de développement semble aussi complexe que le développement de l'organisme et nécessite une combinaison de différents types de lien entre les concepts. Sur la base de ce qui a été fait pour le vocabulaire contrôlé eVoc [Kel, 03], la deuxième possibilité a été retenue et deux ontologies distinctes ont été conçues. Ces deux ontologies sont plus faciles à représenter et à organiser. Des concepts ont été dupliqués dans chaque ontologie quand ils incluent à la fois des aspects espace et temps et seul le type de lien « is-a » a été utilisé. o Protocole de construction Les termes sélectionnés ont été répartis dans les quatre aspects du contexte d'une expérience d'expression des gènes : caractérisation de la souche étudiée, les conditions de culture maintenues jusqu'à l'extraction des molécules exprimées, l'organe ou le tissu extrait, et les stades de développement de l'organisme au moment de l'extraction. Les figures (de 4.15 à 4.18) sont des vues schématiques des quatre ontologies créées (les nœuds en jaune représentent les concepts tandis que les nœuds en orange sont des exemples d’instances des concepts). L’ontologie « étapes du cycle cellulaire » a six niveaux de ramification, représentent les différentes étapes du cycle du champignon, y compris les stades sexués et asexués. L’ontologie « types cellulaires » contient cinq niveaux, et décrie les différents organes ou tissus qui sont impliqués dans le développement des champignons. Certains concepts sont communs avec l’ontologie « étapes du cycle cellulaire » en raison de leur fonction spatiale et temporelle. L'ontologie des caractéristiques des « souches » se compose de trois niveaux de ramification. Les souches de champignons peuvent être de type sauvage ou mutant dont les valeurs sont par exemples Mauriceville-1c (FGSC 2225), Nuc-2, 74 ou 23 IV (FGSC 2489). Les souches présentent également des incompatibilités végétatives résultant de différences génétiques à des loci spécifiques et chaque champignon possède son 106 Chapitre 4. La Conception propre système (par exemple "R /V" pour N.crassa et "het-S/het-s" pour P.anserina) [Lou, 00]. L’ontologie « conditions de culture », dispose de quatre niveaux de ramification. Cinq caractéristiques sont décrites. Le milieu de culture qui peut être de croissance ou de croisement, contenir un supplément ou présenter un manque d'éléments nutritifs comme des vitamines, des acides aminés, ou des sucres. Deux aspects temporels sont pris en compte : la durée de la culture (1, 7, ou 24 heures, 5 ou 7 jours par exemples), et le moment du prélèvement (matin ou le soir). La lumière est soit constante ou absente. Et enfin, les stress subis par les champignons lors de leurs développements peuvent être dûs à une variation de température ou de la concentration d'oxydant. 3.2. Architecture du système L’objectif de notre système est de faciliter la consultation (visualisation), l’exploitation et la gestion des données relatives aux expériences réalisées sur les deux champignons filamenteux à travers l’ontologie biologique du domaine. Cette ontologie qui est subdivisée en quatre sous ontologies que sont : « le cycle de développement », « le tissus cellulaire », « les caractéristiques des souches » et « les conditions de culture » représentants les différents aspects morphologiques et expérimentales d’un champignon. L’architecture générale du système est illustrée dans le schéma ci-après : 107 Chapitre 4. La Conception Figure 4.19 Architecture générale de l’application. Nous allons détailler dans les parties qui suivent le rôle des différents modules du système, nous proposons de modéliser leurs fonctionnements ainsi que les fonctionnalités qui doivent être fournies à l’utilisateur grâce aux diagrammes UML. Nous allons commencer par délimiter notre système et définir les fonctionnalités principales dont il doit disposer ainsi que les différents types d’utilisateurs qui les effectuent. 108 Chapitre 4. La Conception o Acteurs et fonctions principales du système Les besoins fonctionnels couverts par le prototype peuvent être synthétisés en quatre grandes familles : · La visualisation (consultation) d’informations ; · La recherche d’informations ; · L’exploitation d’informations ; · Et la gestion (mise à jour) d’informations. Les acteurs représentent le rôle humain dans notre système, leurs interactions avec le système sont représentées sous forme de cas d’utilisation dans ce qui suit. Les acteurs dans notre système peuvent être : · Utilisateur de l’ontologie (les Biologistes, les Bio-informaticiens ou les Informaticiens) · Expert du domaine (les Biologistes, les Bio-informaticiens) · Administrateur l’ontologie (les Bio-informaticiens ou Informaticien) o Cas d’utilisation commun à tous les utilisateurs Ce diagramme représente les cas d’utilisations d’un utilisateur quelconque, autrement dit, les fonctionnalités que doit fournir le système à tous ses utilisateurs. Ces fonctionnalités sont : · Chargement de l'interface de choix : lorsque l'utilisateur se connecte au système, l'interface du choix est chargée, ce qui va permettre à l’utilisateur de choisir le mode adéquat et ensuite le chargement de l'interface choisit (1: Consulter, 2: Exploiter, 3: Enrichir). · Affichage du contenu de l'ontologie : dans le cas ou l’utilisateur choisit de consulter l'ontologie, une représentation de l'ontologie sous forme d'un arbre est visualisée. · Affichage d'informations concernant un concept choisit : lorsque l'utilisateur choisit un concept, les informations relatives à ce concept sont affichées. 109 Chapitre 4. · La Conception Recherche d’un concept dans l’ontologie : l’utilisateur à la possibilité de rechercher manuellement un concept ou à l’aide d’une requête saisie. Figure 4.20 Cas d’utilisation de tous les utilisateurs. o Cas d’utilisation de l’expert du domaine Ce diagramme représente les cas d’utilisations d’un expert du domaine. Figure 4.21 Cas d’utilisation de l’expert du domaine. 110 Chapitre 4. La Conception Les fonctionnalités que doit fournir le système à l’expert du domaine sont décrites comme suit : · Chargement des fiches d’ESTs : l’expert du domaine peut exploiter les données expérimentales contenues dans les fiches d’ESTs préalablement prétraitées en décomposant le texte des fiches en termes et en normalisant les termes extraits. · Calcul des fréquences des termes : un calcul de fréquence exemple la mesure TF-IDF est effectuée sur les termes précédemment extraits. · Affichage du Clustering : Après le calcul des fréquences, l’expert à la possibilité d’évaluer la similitude ou non de la fonction des gènes en utilisant le Clustering. o Cas d’utilisation de l’administrateur Ce diagramme représente les cas d’utilisations de l’administrateur de l’ontologie : Figure 4.22 Cas d’utilisation de l’administrateur. Les fonctionnalités que doit fournir le système à l’administrateur sont : · S’identifier : la mise à jour est une tâche délicate d’où la nécessité de s’identifier pour garantir une sécurité de l’information. · Mise à jour des informations : Cette mise à jour consiste en l’ajout, suppression et modifications des concepts, de leur définition et de leurs synonymes. 111 Chapitre 4. La Conception 3.3. Le module consultation (Description) Ce module est aux utilisateurs voulant visualiser sous forme d’arborescence le contenu des quatre ontologies en proposant pour chaque concept sélectionné : son nom, sa définition, le(s) synonymes, le concept père et le(s) concept(s) fils associés. Il permet aussi d’effectuer une recherche manuelle ou par mot-clé d’un concept donné. L’architecture de ce module est la suivante : Figure 4.23 Architecture du module consultation. 3.4. Le module exploitation (Description) Ce module est destiné aux utilisateurs désirant avoir une « idée » sur l’activité des gènes associés aux deux champignons. Chaque fiche d’EST est constituée d’un ensemble de termes à qui on leurs calcule la métrique TF*IDF puis grâce au logiciel TANAGRA un clustering est réalisé. Chaque groupe correspondrait à des distances entre termes de fiche dESTs proche (ou éloigné selon le cas) et que (peut être) l’expert du domaine pourra déterminer l’activité des gènes. L’architecture de ce module est la suivante : 112 Chapitre 4. La Conception Figure 4.24 Architecture du module exploitation. 3.5. Le module enrichissement (Description) Ce module est le noyau du système, il a pour but de mettre à jour les informations de l’ontologie. L’administrateur s’identifie grâce à un mot de passe qui lui permet d’accéder soit au fichier ONTO-BIO.obo qu’il veut modifier ou bien la base de données. L’architecture de ce module est la suivante : Figure 4.25. Architecture du module enrichissement. 113 Chapitre 4. La Conception Pour une représentation claire et précise des fonctionnalités fournies par du module consultation, un diagramme de séquence (ou de scénario) est présenté. Ce diagramme offre une représentation dynamique du système. Il montre pas à pas le séquencement des actions constituant le cas du processus de recherche d’informations (ici par mots-clés) : Figure 4.26 Diagramme de séquence de la recherche d’information par mots-clés. Le diagramme de séquence suivant décrit la mise à jour de l’ontologie via la BDD qui se trouve dans EasyPHP pour le module enrichissement. Figure 4.27 Diagramme de séquence de mise à jour de l’ontologie via la BDD. 114 Chapitre 4. La Conception 4. Conclusion Ce chapitre aborde l’expérimentation effectuée dans le cadre de ce mémoire à savoir l’effectif manipulé, ainsi que les cirières pris en compte pour les deux types d’extraction manuelle et automatique et commente les résultats obtenus par l’extraction manuelle, l’extraction automatique grâce au logiciel K.E.A et de la nécessité de l’intervention humaine dans ce cas de figure. Ce chapitre comprend aussi la phase de construction de l’ontologie biologique du domaine, en spécifiant la méthode choisie à cet effet. Ainsi que la présentation de l’architecture qui exploite cette ontologie en détaillant les différents modules de ce système. Dans ce qui suit, est présenté l’environnement de développement de notre application en expliquant le choix des outils utilisés, et la description du système développé à travers des captures d’écran de ses différentes interfaces. 115 Chapitre 5 L’Implémentation Plan 1. Introduction 2. Environnement de développement 2.1. Choix du langage de développement 2.2. Choix de l’éditeur de l’ontologie 2.3. Choix du S.G.B.D 3. Description du système 3.1. Interface principale 3.2. Description de la barre d’outils 3.3. Cas d’utilisation du système 4. Conclusion Chapitre 5. L’implémentation 1. Introduction Après avoir décrit la conception de l’ontologie des champignons filamenteux, nous allons à présent entamer la partie réalisation du système que nous avons baptisé « COSEC » (Construction Ontologique à partir de Séquences d'Expression de Champignons). Dans la première partie de ce chapitre, est présenté l’ensemble des outils de développement utilisés. Dans la seconde partie, le processus d’implémentation du système est détaillé, ainsi que les principales interfaces qui le composent à travers des fenêtres de capture. 2. Environnement de développement Pour implémenter le prototype, nous avons dû faire un choix concernant les outils de développement. Nous citons dans cette section ces outils tout en mentionnant les raisons qui nous ont amenés à les utiliser. 2.1. Choix du langage de développement Dans la partie programmation du système de recherche d’information nous avons utilisé le langage JAVA. Ce langage nous a paru beaucoup plus une évidence qu’un choix, vu que les outils que nous utilisant sont entièrement développés en JAVA. De plus la plupart de ces outils ont des problèmes de compatibilité avec les autres langages dans leur version actuelle. De plus nous avons choisi ce langage pour ses qualités, à savoir : · JAVA est un langage orienté objet simple, qui réduit le risque des erreurs d’incohérences, · Il est indépendant de toute plate forme, il est possible d’exécuter des programmes JAVA sur tous les environnements qui possèdent une Java Virtual Machine (JVM), · Il est doté d’une riche bibliothèque de classes, comprenant la gestion des interfaces graphiques (fenêtres, menus, graphismes, boites de dialogue, contrôles), la programmation multithread (multitâche), la gestion des exceptions, · Il permet d’accéder d’une manière simple aux fichiers et aux réseaux (notamment Internet), · Il permet un accès aux bases de données simplifié soit a travers la passerelle JDBCODBC ou a travers un pilote JDBC spécifique au SGBD, 117 Chapitre 5. L’implémentation · Il est caractérisé aussi par la réutilisation de son code ainsi que la simplicité de sa mise en œuvre. 2.2. Choix de l’éditeur d’ontologies L’implémentation de notre ontologie biologique s’est effectuée à travers l’éditeur d’ontologies OBO-Edit 2.0. Plusieurs raisons ont motivé notre choix : · OBO-Edit est un éditeur d’ontologies open source et gratuit, · OBO-Edit possède une interface modulaire, ce qui permet son enrichissement par des modules additionnels (plugins), · OBO-Edit permet l’édition et la visualisation d’ontologies, · OBO-Edit permet le contrôle de la cohérence de l’ontologie par des vérifications de contraintes, · OBO-Edit est un éditeur d’ontologies développé et maintenue par le « Consortium Gene Ontology » pour les ontologies dans le domaine de la biologie. 2.3. Choix du SGBD Le Système de Gestion de Bases de Données que nous avons choisi pour implémenter notre base de données des deux champignons filamenteux est MySQL. MySQL est un SGBDR (Système de Gestion de Base de Données Relationnelles) fonctionnant sur diverses plates-formes matérielles sous différents systèmes d’exploitation. L’une des principales qualités de MySQL est d’être un logiciel libre, c'est-à-dire gratuit et open source (les sources du logiciel sont disponibles dans le site http://www.mysql.com). Il possède de nombreuses caractéristiques qui font de lui un SGBDR robuste et puissant. Il est considéré parmi les systèmes libres les plus avancés. · Il permet la définition et la manipulation des données, · Il permet d’assurer l’intégrité et la cohérence des données, · Il permet la sauvegarde et la restauration des données · Il reconnaît la plupart des spécifications SQL, 118 Chapitre 5. · L’implémentation Il intègre des bibliothèques pour de nombreux langages, afin de permettre d’accéder aux enregistrements à partir de programmes écrits en : Java (JDBC), langage C/C++, Perl…etc. · Et enfin, la gestion des accès concurrents. L’interface PhpMyAdmin PhpMyAdmin est un outil entièrement écrit en PHP qui fournit une interface simple et très complète pour administrer une base MySQL. La plupart des commandes de l’utilitaire MySQL peuvent s’effectuer par l’intermédiaire de PhpMyAdmin, les opérations possibles dépendant bien sûr des droits de l’utilisateur qui se connecte à la base. Voici une liste des principales possibilités : · Créer et détruire des bases de données (sous le compte root de MySQL), · Créer, détruire, modifier la description des tables, · Consulter le contenu des tables, modifier certaines lignes ou les détruire, etc. · Exécuter des requêtes SQL interactivement, · Charger des fichiers dans des tables et, réciproquement, récupérer le contenu de tables dans des fichiers ASCII, · Administrer MySQL. Connexion Java/MySQL Pour connecter l’application à la base de données, nous avons utilisé l’interface JDBC. JDBC (acronyme qui signifie « Java Data Base Connectivity»), est un ensemble de classes Java qui permettent de se connecter à une base de données, généralement distante sur le réseau, et d’interroger cette base afin d’en extraire des données. La principale caractéristique de JDBC est le fait qu’elle est complètement indépendante de tout SGBD, c’est-à-dire qu’il peut être utilisé pour accéder à une base Oracle, PostgreSQL ou MySQL, etc. 3. Description du système L’interface homme/machine représente l’élément clé dans l’utilisation de tout système informatique. Ainsi, les interfaces de notre système sont conçues de manière à être simples, faciles d’utilisation et de compréhension. Ce système (prototype) permettra à l’utilisateur 119 Chapitre 5. L’implémentation d’exploiter l’ontologie des champignons filamenteux, de consulter ses concepts et de voir les informations sur ses concepts. Dans ce qui suit nous allons présenter le prototype réalisé à travers des captures d’écran. 3.1. Interface principale L’interface illustrée par la figure ci-dessous représente l’interface principale de notre application : 1 2 3 4 Figure 5.1 Interface Principale de l’application. 1) Choix du type de tâche à effectuer : On a le choix entre Consulter, Exploiter ou Enrichir l’ontologie du domaine. 2) Botton Valider : validation du choix. 3) Botton Annuler : annulation du choix. 4) Botton Quitter : sortie de l’application. 120 Chapitre 5. L’implémentation 3.2. Description de la barre de Menus On trouve la barre de menus dans les interfaces suivantes : Consulter, Exploiter ou Enrichir. Elles ont toutes les mêmes composants. v Le menu Fichier Figure 5.2 Menu Fichier. · Ouvrir : Permet l’ouverture (ou le chargement) de l’ontologie du domaine. · Imprimer : Permet l’impression de l’arborescence de tous les concepts de l’otologie. · Quitter : Permet sortir de l’application. v Le menu Rechercher Figure 5.3 Menu Rechercher. · Par exploitation de l’arborescence : Dans ce mode de recherche l’utilisateur peut accéder à tous les concepts de l’ontologie. Son principe est de permettre aux utilisateurs de faire une recherche et découvrir les concepts de l’ontologie en navigant sur cette dernière représentée sous forme d’une arborescence. · Recherche par mots clés : Dans ce mode de recherche il est possible d’accéder directement à un concept de l’ontologie par saisie d’une requête, toutefois la connaissance de quelques mots clés du domaine est nécessaire pour faire ce type de recherche. Ce mode permet de faire des recherches sur l’ensemble des données contenues dans l’ontologie à partir d’un mot précis ou d’un mot approchant qui se trouve dans la requête. 121 Chapitre 5. L’implémentation v Le menu Mise à jour Figure 5.4 Menu Mise à jour. · Mise à jour concepts : Permet d’ajouter, de supprimer ou de modifier le contenu des concepts. · Mise à jour ontologies : Permet d’ajouter, de supprimer ou de modifier le contenu des ontologies. v Le menu A propos : Permet de représenter la présentation et la version du logiciel. 3.3. Cas d’utilisation du système La section qui suit décrit les différentes possibilités qui sont offertes à l’utilisateur selon la tâche sélectionnée. · Cas1 : Consulter Si l’utilisateur choisi la tâche Consulter, il lui sera possible de visualiser l’ontologie du domaine (c’est-à-dire les 4 sous ontologies) et les informations associées à chaque concepts à savoir : la définition et le(s) synonyme(s), ainsi que le concept père et le(s) fils comme le montre la figure ci-dessous : 122 Chapitre 5. L’implémentation 1 2 3 4 5 Figure 5.5 Interface de l’ontologie biologique du domaine. 1) LE CONCEPT SELECTIONNE : représente le nom du concept sélectionné. 2) LA DEFINITION : donne la définition du concept sélectionné. 3) LES SYNONYMES : affiche le ou les synonymes du concept sélectionné. 4) LE CONCEPT PERE : c’est le concept ascendant du concept sélectionné. 5) LE CONCEPT FILS : le ou les concept(s) fils du concept sélectionné. L’utilisateur a aussi la possibilité d’effectuer une recherche sur un concept selon les deux modes précédemment décrits. La figure suivante correspond au mode de recherche par mots clés : 123 Chapitre 5. L’implémentation 1 3 2 4 5 6 7 Figure 5.6 Interface de la recherche par mots-clés. 1) MOT CLE A SAISIR : Zone de saisie du mot clé. 2) RESULTATS DE LA RECHERCHE : Résultat du ou des concepts trouvés à partir du mot clé saisi. 3) L’ONTOLOGIE CONCERNEE : Numéro de l’ontologie contenant le mot clé. 4) LA DEFINITION : Définition du ou des concepts trouvés à partir du mot clé. 5) LES SYNONYMES : Synonyme(s) du ou des concepts trouvés à partir du mot clé. 6) LE CONCEPT PERE : Concept père du ou des concepts trouvés à partir du mot clé. 7) LE CONCEPT FILS : Concept fils du ou des concepts trouvés à partir du mot clé. · Cas 2 : Exploiter Si l’expert du domaine choisi la tâche Exploiter, il lui sera possible demander le Clustering des fiches d’ESTs (Expressed Sequence Tags) pour permettre de proposer une fonction biologique liée à l’expérience. 124 Chapitre 5. L’implémentation w D’abord, les termes des fiches d’ESTs sont prétraités (décomposition et normalisation) : Décomposition + Normalisation Figure 5.7 Prétraitement des fiches d’ESTs. 125 Chapitre 5. L’implémentation w Ensuite, les fréquences des termes des fiches d’ESTs sont calculées (métrique TF*IDF) : Figure 5.8 Calcul de TF*IDF des termes des fiches d’ESTs. w Enfin, les termes des fiches d’ESTs dont la métrique TF*IDF a été calculée sont enregistrés (en format .arff) pour être utilisé par TANAGRA qui établira le Clustering correspondant : Figure 5.9 Résultat du clustering des termes des fiches d’ESTs par TANAGRA. 126 Chapitre 5. · L’implémentation Cas 3 : Enrichir Pour pouvoir utiliser notre application l’administrateur système doit d’abord lancer le serveur web EasyPHP pour se connecter à la base de données. Ensuite, l’administrateur spécifie le nom d’utilisateur et le mot de passe, qu’il saisi au niveau de notre application comme est illustré dans la figure suivante : Figure 5.10 Connexion à la base de données. Grâce au Menu mise à jour, l’administrateur peut enrichir l’ontologie du domaine en effectuant les opérations d’ajout, de suppression et de modification des données. Pour ce faire l’administrateur choisi soit de mettre à jour « localement » ou « globalement » les données. v Si l’administrateur effectue une mise à jour dite « locale », cette dernière se répercute que sur les fichiers .OBO des quatre sous ontologies : 1) Ontologie : Sélectionne une ontologie. 2) Nom concept père : Nom du concept père du concept sélectionné. 3) ID père : Identifiant du concept père du concept sélectionné. 4) Nom concept courant : Nom du concept sélectionné. 5) ID fils: Identifiant du concept sélectionné. 6) Définition : définition du concept sélectionné. 7) Synonymes : Synonyme(s) du concept sélectionné. 8) Créé le : date de création du concept sélectionné. 9) Créé par : auteur de création du concept sélectionné. 10) Fichier .OBO de l’ontologie sélectionnée. 127 Chapitre 5. · L’implémentation Bouton Nouveau : Permet à l’administrateur d’accéder à une nouvelle interface permettant d’ajouter un concept et les informations qui lui sont associées. · Bouton Supprimer : Permet à l’administrateur de supprimer un concept et les informations qui lui sont associées. · Bouton Modifier : Permet à l’administrateur de modifier un concept et les informations qui lui sont associées. · Bouton Enregistrer : Permet à l’administrateur d’enregistrer les modifications apportées concept et les informations qui lui sont associées. Figure 5.11 Mise à jour dite « locale » de l’ontologie biologique du domaine. L’interface suivante correspond à celle que l’administrateur doit remplir lors de l’opération de l’ajout. 128 Chapitre 5. L’implémentation Identifiant du nouveau concept Figure 5.12 Ajout d’un concept de l’ontologie « Cellular cycle steps.OBO ». v Si l’administrateur effectue une mise à jour dite « globale », cette dernière se répercutera sur la base de données créée et définie sous MySQL. Il possible d’effectuer ces modifications sur les ontologies, leurs synonymes et leurs concepts. Nous allons illustrer par un exemple l’ajout d’une nouvelle ontologie (une cinquième) et voir sa mise à jour effective dans EasyPHP : Figure 5.13 La table ontologie avant la mise à jour. 129 Chapitre 5. L’implémentation Figure 5.14 La table ontologie avant et après la mise à jour (au niveau d’EasyPHP). Nouvelle ontologie Figure 5.15 La table ontologie après la mise à jour. 4. Conclusion Dans ce chapitre nous avons présenté l’implémentation de notre système de recherche d’information. Nous avons tout d’abord présenté l’environnement de développement ainsi que les différents outils utilisés, puis nous avons donné une description détaillée du système à travers des fenêtres de capture qui représentent les interfaces de ce dernier, qui sont conçues de manière à être conviviales et simples d’utilisation. Cette étape nous a aussi permis de nous familiariser avec les outils utilisés pour le développement du système. 130 Conclusion générale et perspectives Conclusion générale et perspectives Notre approche vise la construction d’ontologie de deux champignons filamenteux modèles. Durant cette mise en œuvre il était important de bien effectuer le passage du niveau documents textuels au niveau ontologique, en définissant de façon rigoureuse les entités manipulées et en faisant intervenir les techniques de TAL et de fouille de textes pour les déterminer. Cette contribution concerne un type de données particulières : Les informations associées aux EST (Expressed sequence Tags) chez Neurospora crassa et Podospora anserina. A ce titre, nous avons évoqué dans notre approche l’utilisation d’un outil de Traitement Automatique de la Langue : K.E.A. Ce dernier appartient à la deuxième classe des méthodes d’acquisition terminologique qui extrait des termes candidats, les méthodes statistiques. La base de données de référence dans cette étude étant NCBI (terminologie anglo-saxonne). Cette technique a permis l’extraction d’un certain nombre de termes à partir des fiches d’EST auxquels nous avons ajouté les termes n’apparaissant pas dans les fiches d’EST, et à partir de quelques documents spécialisés dans le domaine. Nous sommes parvenus à un vocabulaire contrôlé consistant permettant la construction d’ontologies. Le résultat de cette extraction a abouti à une cinquantaine de termes que nous avons répartis en termes liés aux processus biologiques et en termes liés aux conditions imposées pendant la culture. Dans un premier temps, les termes de Neurospora cressa et Podosopora anserina ont été fusionné car ces derniers sont relativement proches morphologiquement. Dans un deuxième temps, nous avons eu à prendre en considération un aspect important concernant les termes à savoir l’aspect spatio-temporel associé à un même terme ; exemple : perithecium (périthèce) qui est un moment défini du cycle mais aussi un organe. Deux solutions ont été envisageables, soit construire une ontologie pour chaque aspect, spatial et temporelle ou bien une ontologie unique de « développement ». Nous avons préféré et ce en s’inspirant de ce qui a été réalisé pour le vocabulaire contrôlé « eVoc », d’opter pour une ontologie modulaire qui comporte quatre ontologies (Ontologie du développement du cycle cellulaire du champignon, types cellulaires, souches et 131 Conclusion générale et perspectives conditions de culture du champignon). Ceci nous a permis de mettre en évidence les différents aspects morphologiques et expérimentaux des deux champignons filamenteux modèles. Cette dernière est modulaire pour plus de flexibilité et de facilitation de mises à jour. Ces informations ont été exploitées par une approche statistique d’extraction de termes. Les premiers résultats obtenus montrent que la stratégie adoptée est relativement pertinente. Cependant, des améliorations, notamment en ce qui concerne la couverture par des documents spécialisés, doivent encore être apportées pour que cette ontologie puisse être effectivement opérationnelle sur toutes les ressources biologiques. En perspective à ce travail, nous envisageons : Ø De développer un module d’enrichissement d’ontologie du système. Ø D’enrichir notre ontologie le plus possible avec l’aide des experts du domaine pour envisager une éventuelle intégration de ces ressources à l’ontologie du domaine. Ø De pouvoir associer la « Gene Ontology » aux ontologies précédemment définies pour une possibilité d’intégration et de comparaison avec notre ontologie. Ø De conceptualiser une ontologie d’un organisme supérieur tel que : Arabidopsis thaliana et la comparer avec l’ontologie construite pour les champignons. 132 Références bibliographiques 5 [Bac, 00] : B. Bachimont. Engagement sémantique et engagement ontologique : conception et réalisation d'ontologies en ingénierie des connaissances. Ingénierie des connaissances, Evolutions récentes et nouveaux défis, 2000. [Bah, 06] : D. Bahloul. Une approche hybride de gestion des connaissances basée sur les ontologies : application aux incidents informatiques, Thèse de Doctorat, Université de Lyon (France), 2006. [Bou, 03] : D. Bourigault, D et N. Aussenac-Gilles. N. Construction d’ontologies à partir de textes. Journal Traitement Automatique des Langues Naturelles 2003, p. 9-11, 2003. [Bou, 08] : F. Boubekeur-Amirouche. Contribution à la définition de modèles de recherche d'information flexibles basés sur les CP-Nets, Thèse de Doctorat, Université de Toulouse III- Paul Sabatier (France), 2008. [Bor, 97] : W. N. Borst. «Construction of Engineering Ontologies.» Center for Telematica and Information Technology, University of Tweenty, Enschede, NL, 1997. [Cha, 04] : F. Chantelot, A. Claude, V. Zoonekynd. Interaction entre gènes : extraction d’information d’un corpus de résumés d’articles de recherche, Rapport, p. 1-3, France, 2004. [Che, 04] : H. Cherfi. Étude et réalisation d’un système d’extraction de connaissances à partir de textes, Thèse de Doctorat, Université d’Henri Poincaré –Nancy 1 (France), 2004. [Che, 05] : H. Cherfi, A. Napoli et Y.Toussaint. Towards a Text Mining Methodology Using Association Rules Extraction, Soft Computing Journal, 2005. [Cho, 09] : O. Chourabi. Un cadre ontologique générique de modélisation, de capitalisation et de partage de Connaissances Métiers Situées en Ingénierie Système, Thèse de Doctorat, Université de la Manouba (France), 2009. [Coh, 04] : S. Cohen Boulakia, S. Lair, N. Stransky, S. Grazian, F. Radvany, E. Barillot, C. Froidevaux. Selecting Biomedical Data Sources according to User Preferences. ISMB/ECCB’04 Bioinformatics Volume 20 Supplement 1, pages i86–i93, 2004. 134 [Col, 00] : N. Collier, C. Nobata, et J. Tsujii. Extracting the Names of Genes and Gene Products with a Hidden Markov Model. In Proc. of COLING 2000, p. 201–207, 2000. [Cop, 97] : E. Coppin, R. Debuchy, S. Arnaise, M. Picard. Mating Types and Sexual Development in Filamentous Ascomycetes, Microbiology end Molecular Biology Reviews, Volume. 61, No. 4, p. 413, USA, 1997. [Des, 08] : S. Despres et S. Szulman. Réseau terminologique versus Ontologie. Revue TOTh 2008, p. 6-7, 2008. [Dia, 06] : G. Diallo. Une architecture à base d’Ontologies pour la gestion unifiée des données structurées et non structurées, Thèse de Doctorat, Université de Joseph Fourier – Grenoble I (France), 2006. [Dop, 07] : H-A. Do Prado. Emerging Technologies Of Text Mining: Techniques And Applications / Hercules Antonio Do Prado & Edilson Ferneda, Editors. ISBN 978-1-59904-373-9 (Hardcover) -- ISBN 978-1-59904-375-3 (Ebook), 2007. [Eom, 04] : J. Eom et B. Zhang. PubMiner: Machine Learning-based Text Mining for Biomedical Information Analysis. In Genomics & Informatics Volume. 2(2) p. 99- 106, 2004. [Esp, 08] : E. Espagne, O. Lespinet, F. Malagnac, C. Da Silva, O. Jaillon, B. M Porcel, A. Couloux, J-M. Aury, B. Ségurens, J.Poulain, V. Anthouard, S. Grossetete, H. Khalili, E. Coppin, M. Déquard-Chablat, M. Picard, V. Contamine, S. Arnaise, A. Bourdais, V. Berteaux-Lecellier, D. Gautheret, R-P. de Vries, E. Battaglia, P. M Coutinho, E. GJ Danchin, B. Henrissat, R. EL Khoury, A. Sainsard-Chanet, A. Boivin, B. PinanLucarré, C. H Sellem, R. Debuchy, P. Wincker, J. Weissenbach, P. Silar. The genome sequence of the model ascomycete fungus Podospora anserina, Genome Biology, Volume 9, Issue 5, 2008. [Fay, 96] : U. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD Process for Extracting Useful Knowledge from Volumes of Dated, Communications Of The ACM, Volume 39, No. 11, 1996. 135 [Fel, 95] : R. Feldman et I. Dagan. Knowledge Discovery In Textual Databases (KDT). Dans In Proceedings Of The First International Conference On Knowledge Discovery And Data Mining (KDD-95), Pages 112–117, Montréal (Canada), 1995. [Fro, 04] : C. Froidevaux et S. Cohen Boulakia. Intégration de Sources de Données Génomiques du Web. 2004. [Fuk, 98] : K. Fukuda, T. Tsunoda, A. Tamura, T. Takagi. Toward information extraction: identifying protein names from biological papers. PSB, p.705– 716, 1998. [Gaa, 05] : M-V. Gaad. Genomic conflicts in Podospora anserina, Thèse de Doctorat, Université de Wageningen, 2005. [Gar, 03] : Y.Gargouri. Maintenance d’ontologies de domaine à partir d’analyses textuelles, Thèse de Doctorat, 2003. [Gha, 09] : I. Ghalamallah. Proposition d'un modèle d'analyse exploratoire multidimensionnelle dans un contexte d'Intelligence Economique, Thèse de Doctorat, Université de Toulouse III - Paul Sabatier (France), 2009. [Gom, 04] : A. Gómez-Pérez, F-L. Mariano, C.Oscar. Theoretical Foundations of Ontology, Chapter 1 of Ontological Engineering: with examples from the areas of Knowledge Management, e-Commerce and the Semantic Web. Springer-Verlag, p. 1–45, 2004. [Gru, 93] : T. Gruber. «A translation approach to portable ontology specifications. » Knowledge Acquisition Journal, academic Press, 1993. [Gua, 97] : N. Guarino. Some organizing principles for a unified top-level ontology. Proceedings of the AIII Spring Symposium on Ontological Engineering, 1997. [Gua, 95] : N. Guarino et P. Giaretta. «Ontologies and Knowledge Bases: Towards a Terminological Clarification.» In Towards Very Large Knowledge Bases: Knowledge Building and Knowledge Sharing, Mars N. J. I., Amsterdam: IOS Press, 1995. [Gué, 05] : E. Guérin. Intégration de données pour l’analyse du transcriptome : mise en œuvre par l’entrepôt GEDAW (Gene expression data warehouse), Thèse de Doctorat, Université Renne (France), 2005. 136 [Had, 02] : M. Hatem Haddad. « Extraction Et Impact Des Connaissances Sur Les Performances Des Systèmes De Recherche d’Information », Thèse de Doctorat, Université de Joseph Fourier (France). 2002. [Hat, 04] : D. Hatsch. Interaction hôte/pathogène : étude du modèle Humulus lupulus / Fusarium graminearum. Identification, génomique et transcriptomique du pathogène,Thèse de Doctorat, Université de Louis PasteurStrasbourg I (France), 2004. [Hat, 01] : V. Hatzivassiloglou, P. Duboué, A. Rzhetsky. Disambiguating proteins, genes, and RNA in text: a machine learning approach. Bioinformatics, 17(1): p. 97-106, 2001. [Her, 06] : N.Hernandez, J.Mothe. TtoO: une méthodologie de construction d’ontologie de domaine à partir d’un thésaurus et d’un corpus de référence, RAPPORT INTERNE IRIT, 2006. [Hob, 97] : J.R. Hobbs, D. Appelt, J. Bear, D. Israel, M. Kameyama, M. Stickel. FASTUS: A Cascaded Finite-State Transducer for Extracting Information From Natural- Language Text. Finite-State Language Processing., Cambridge: MIT press. 383-406, 1997. [Hob, 00] : J.R. Hobbs. Information extraction from biomedical text. Journal Biomedical Informatics. In Proceedings of Pac Symposium Biocomputers. p. 541-552, 2000. [Kaz, 02] : J. Kazama, T. Makino, Y. Ohta, et J. Tsujii. Tuning SVM for biomedical named entity recognition. In Proceedings of the workshop on NLP in the biomedical domain, 2002. [Kel, 03] : J. Kelso, J. Visagie, G. Theiler, A. Christoffels, S. Bardien, D. Smedley, D. Otgaar, G. Greyling, C. Victor Jongeneel, M.I. McCarthy, T. Hide, W. Hide. eVOC: A Controlled Vocabulary for Unifying Gene Expression Data. Journal of Genome Research. 13:1223–1227. 2003. [Khe, 06] : M-K. Khelif. Web sémantique et mémoire d’expériences pour l’analyse du transcriptome, Thèse de Doctorat, Université de Nice-Sophia Antipolis (France), 2006. [Kim, 03] : J.D. Kim, T. Ohta, Y. Tateisi, J. Tsujii. GENIA corpus -semantically annotated corpus for bio-textmining. Bioinformatics 19 (Suppl. 1), i180182, 2003. 137 [Kra, 00] : M. Krauthammer, A. Rzhetsky, P. Morozov et C. Friedman. Using BLAST for identifying gene and protein names in journal articles. Gene 259(1-2) p. 245-52, 2000. [Jon, 09] : C. Jonquet, N. Shah, M.A. Musen. Un service Web pour l’annotation sémantique de données biomédicales avec des ontologies. 2009. [Jou, 03] : W. Jouini. Les méthodes et techniques d’Extraction de Connaissances de Bases de données, Rapport de synthèse, 2003. [Lav, 07] : B. Lavoie. Notion d'ontologie et construction d'ontologie à partir de corpus de textes. Programme de doctorat en informatique cognitive (Synthèse de lectures). Université Québec (Canada), 2007. [Lor, 02] : G. Lortal. État de l’art Ontologies et Intégration/Fusion d’ontologies, Rapport de synthèse 2009. [Lor, 09] : J. Lorec. Extraction d’informations sur la régulation transcriptionnelle à partir de gènes à partir d’articles biomédicaux, Thèse de Doctorat, Université de Nantes (France), 2009. [Lou, 00] : G. Loubradou et B. Turcq. Vegetative incompatibility in filamentous fungi: a roundabout way of understanding the phenomenon. Res. Microbiol. vol. 151-4, p. 239-245, 2000. [Luc, 00] : M. Lucas. Mining In Textual Mountains, An Interview With Marti Hearst. Mappa Mundi Magazine, Trip-M, 005, 1–3. Http: //Mappa.Mundi.Net/Trip-M/Hearst/, 2000. [Mar, 08] : L.Marcheix. CONCEPTION D’UNE ONTOLOGIE A PARTIR D’UN THESAURUS SPECIALISE DANS LE DOMAINE DE L’ARCHEOLOGIE ET DES SCIENCES DE L’ANTIQUITE, Thèse de Doctorat, Vincennes – Saint-Denis, Paris 8 (France), 2008. [Med, 05] : O. Medelyan. Automatic Keyphrase Indexing with a Domain-Specific Thesaurus, Thèse de Doctorat, Université Albert-Ludwigs- (Nouvelle Zélande), 2005. 138 [Még, 02] : K. Mégy. Analyse in-silico de profils d’expression de gènes humain à partir d’une étude statistique des ESTs, Thèse de Doctorat, Université d’Aix-Marseille II (France), 2002. [Miz, 96] : R. Mizoguchi et M. Ikeda «Towards Ontological Engineering (AI-TR-961).», Osaka: ISIR, Osaka, 1996. [Mor, 02] : A. Morget et F. Rechenmann. Modélisation des données biologiques, Medecine sciences 2002, Volume 18, Issue 3. [Mul, 04] : H.M. Muller, E.E. Kenny, P.W. Sternberg, Textpresso: an ontologybased information retrieval and extraction system for biological literature. PLoS Biologie, E309, 2004. [Nas, 01] : V. Nastase et S. Szpakowicz. «Word sense disambiguation in Roget's thesaurus using WordNet ». In: Proceedings of the NAACL 2001 Workshop on WordNet and Other Lexical Resources, Pittsburgh, 2001. [Nee, 91] : R. Neeches, R. E. Fikes, T. Finin, T. R. Gruber, T. Senator et W. R. Swartout. «Enabling technology for knowledge sharing.» AI Magazine. Volume. 12, No 3, 1991. [Néd, 01] : C. Nédellec et A. Nazarenko. Application de l'apprentissage à la recherche et à l'extraction d'information - Un exemple, le projet Caderige : identification d'interactions géniques. In Actes de la Journée thématique Exploration de données issues d'Internet, 2001. [Néd, 04] : C. Nédellec et A. Nazarenko. Machine learning for information extraction in genomics state of the art and perspectives. In: Sirmakessis, S. (ed.): Text Mining and its Applications. Studies in Fuzzi. and Soft Comp. 138. Springer Verlag, Berlin Heidelberg New York 99-118, 2004. [Noy, 02] : N.F Noy et D. McGuinness. Développement d’une ontologie 101 : Guide pour la création de votre première ontologie. Stanford (USA). 2002. [Oli, 02] : D. Oliver, D. Rubin, J. Stuart, M. Hewett, T. Klein, R. Altman. Ontology development for a pharmacogenetics knowledge base. In Pacific Symposium on Biocomputing, p. 65-76, 2002. 139 [Psy, 07] : V. Psyché. RÔLE DES ONTOLOGIES EN INGÉNIERIE DES EIAH : CAS D’UN SYSTÈME D’ASSISTANCE AU DESIGN PÉDAGOGIQUE, Université du Québec à Montréal (Canada), Thèse de Doctorat, 2007. [Raj, 09] : N. Raju. Neurospora as a model fungus for studies in cytogenetics and sexual biology at Stanford, Journal of Biosciences, Volume 34, No.1, p. 139–142, Inde, 2009. [Rin, 00] : T.C. Rindflecsh, L.Tanabe, J.N.Weinstein, L.Hunter. EDGAR: extraction of drugs, genes and relations from the biomedical literature. Proceedings of the Pac Symposium of Biocomputers, p. 517-528, 2000. [Roc, 03] : C. Roche. The differentia principle as a cornerstone for ontology. Knowledge Management and Philosophy, Workshop in WM 2003 Conference, Luzern, 2003. [Sea, 72] : T. Seale. Life Cycle of Neurospora crassa Viewed by Scanning Electron Microscopy, Microbiology end Molecular Biology Reviews, Volume 113, No. 2, p. 1016, USA, 1972. [Sha, 05] : A. Shaban-Nejad. Design and Development of an Integrated Formal Ontology for Fungal Genomics. Université Québec (Canada), Thèse de Doctorat, 2005. [Sha, 02] : H. Shatkay, S. Edwards et M. Boguski. Information retrieval meets gene analysis. IEEE Intelligent System (Special Issue on Intelligent Systems in Biology). 17:45-53, 2002. [Sha, 03] : H. Shatkay, S. Edwards et M. Boguski. Mining the biomedical literature in the genomic era: an overview. Journal of Computational Biology, 10, 821–855, 2003. [Sta, 02] : Staab S. Mining information for functional genomics. IEEE Intelligent System 17-66, 2002. [Ste, 00] : R. Stevens, P. Baker, S. Bechhofer, A. Jacoby, N.W. Paton, C.A. Goble, A. Brass. TAMBIS: Transparent access to multiple bioinformatics information sources. Journal of Bioinformatics.16: 184–185, 2000. [Stu, 98] : R. Studer, V. R. Benjamins, D. Fensel. «Knowledge engineering: Principles and Methods.» Data Knowledge Engineering, Volume 25, No 12, 1998. 140 [Swa, 97] : B. Swartout, R. Patil, K. Knight et T. Russ. «Towards Distributed Use of Large Scale Ontologies.» Spring Symposium Series on Ontological Engineering, Stanford University, CA, 1997. [Tru, 05] : S. Trufféry. Data mining et statistique décisionnelle (l’intelligence des bases de données). Université de Renne 1 et de Paris dauphine, Livre 2005. [Tua, 04] : O. Tuason, L. Chen, H. Liu, J. Blake, et C. Friedman. Biological nomenclatures: Source of lexical knowledge and ambiguity. In Proceedings of the Pacific Symposium of Biocomputing, number 9, p. 238-249, 2004. [Usg, 96] : M. Uschold et M. Grüninger «Ontologies: Principles, Methods and Applications». Journal of Knowledge Engineering Review. vol. 11, no 2, 1996. [Wai, 02] : H.M. Wain, R.C. Lovering, E.A. Bruford, M.J. Lush, M.W. Wright, S. Povey. Guidelines for Human Gene Nomenclature. Journal of Genomics. Vol. 79, Num. 4, 2002. [Wol, 04] : F. Wollman, S. Ball, H. Barbier-Brygoo, S. Blanc, E. Blee, A. Borgel, C. Boyen, J-F. Briat, É. Coppin, D. de Vienne, S. Delrot, C. Dumas, V. Gomord, A-M. Justin, T. Langin, Y. Meyer, J. Millet, J-P. Reichheld, D. Roby, N. Schwebel, M. Vantard. « BIOLOGIE VÉGÉTALE », Rapport de conjoncture, Chapitre27, p.593-594, France, 2004. 141 Annexes 5 Annexe A 5 Annexe A Les champignons filamenteux 1. Introduction L’utilisation d’organismes biologiques comme modèles est incontournable pour faire progresser la connaissance, en particulier pour accéder à la biologie des organismes dans son ensemble. La place de plus en plus grande faite à la génétique a conduit à un recentrage progressif sur des organismes présentant un cycle de reproduction court, facile à gérer en laboratoire et accessible à toutes les méthodologies de génétique classique et moléculaire. [Wol, 04] Inclus dans le monde végétal et des micro-algues, les champignons filamenteux représentent des modèles pour des créneaux thématiques originaux qui engendrent des connaissances de portée générale. Plusieurs espèces de champignons filamenteux non pathogènes du groupe des Ascomycètes sont utilisées comme systèmes modèles. Neurospora crassa, constitue une référence dans le domaine, mais il existe également des modèles dits de « tradition française » en particulier Podospora anserina. [Wol, 04] L’intérêt des champignons en biologie végétale ne se limite pas aux recherches sur les champignons phytopathogènes. Les champignons font l’objet de travaux originaux sur la structure et la stabilité et l’expression des gènes et des génomes, le métabolisme et la physiologie, la biologie du développement et de la reproduction. Ainsi, les champignons filamenteux ont ouvert des pistes originales pour aborder les problèmes liés à la reproduction sexuée. Dans un autre domaine, les recherches récentes concernant la plasticité des génomes de champignons a permis de montrer le rôle des éléments transposables dans la création de la variabilité génétique, et d’identifier deux mécanismes d’inactivation de gènes chez Neurospora crassa. 2. Champignons filamenteux modèles : Neurospora crassa et Podospora anserina Les travaux de cette thèse se sont focalisés sur les deux champignons modèles, Neurospora crassa et Podospora anserina : le champignon filamenteux Podospora anserina est un organisme utilisé pour l’étude génétique et moléculaire de plusieurs processus biologiques et Neurospora crassa dont le génome est déjà séquencé, est l’espèce la plus proche de Podospora anserina. Ces deux champignons appartiennent au même ordre, celui des Sordariales. 144 Annexe A Les champignons filamenteux En tant qu’espèce modèle, Neurospora crassa a été rendue célèbre par son rôle dans la naissance de la biologie moléculaire. C’est en effet grâce à la génétique de Neurospora que George W. Beadle et Edward Tatum ont pu établir la célèbre relation « un gène - une enzyme »1. L’étude de Podospora anserina montre qu’on aurait tort de se limiter à un unique modèle tel que Neurospora crassa. Malgré leur relative proximité, les deux espèces présentent en effet des différences importantes. L’étude de P.anserina donne accès à d’autres phénomènes biologiques que celle de N.crassa. En particulier, les hyphes de P.anserina subissent un phénomène de sénescence qui a établi ce champignon, depuis plusieurs décennies, comme un modèle d’étude des mécanismes du vieillissement. Chez N.crassa, au contraire, la sénescence n’est pas observée de façon systématique. Par ailleurs, P.anserina ne présente pas ou avec une efficacité moindre, les phénomènes d’extinctions géniques qui sont particulièrement efficaces chez N.crassa, ce qui permet de développer chez le second des technologies impossibles à mettre en œuvre chez le premier. 2.1. Cycle de développement de Neurospora crassa Les espèces de Neurospora sont majoritairement haploïdes2, passant la plupart de leurs cycles de vie à l'état haploïde. Cependant, les diverses espèces de Neurospora présentent un des trois cycles de vie différents dits hétérothallique3 homothallique4 ou pseudohomothallique. L’hétérothallisme des espèces de Neurospora crassa est le plus étudié; son cycle général est présenté dans la figure A.1. Pendant la phase asexuée, la germination et la croissance d'une spore asexuée haploïde (conidie) produit une masse de filaments emmêlés (hyphes), qui constituent une colonie. Les hyphes5 n'ont aucune paroi ainsi, une colonie est essentiellement une cellule contenant beaucoup de noyaux haploïdes. Une colonie bourgeonne des millions de conidies des hyphes aériens, des macro-conidies multi-nucléées et des micro-conidies uni-nucléées, et ceux-ci se dispersent et répètent le cycle asexué si elles se trouvent et demeurent sur un substrat approprié. [Raj, 09] 1 http://www.genoscope.cns.fr/externe/HistoireBM/#beadle. 2 Haploïdes : Cellule contenant n chromosomes. Hétérothallique : Reproduction sexuée produite par un seul mycélium ayant des polarités différentes, l'un de signe (+), l'autre de signe (-) 4 Homothallique : Reproduction sexuée produite par un seul mycélium. 5 Hyphes : Ensemble des filaments d'un champignon. 3 145 Annexe A Les champignons filamenteux Dans la phase sexuée, quand les colonies du type sexuel différent entrent en contact, leurs parois cellulaires et les noyaux fusionnent formant beaucoup de noyaux diploïdes transitoires à l'intérieur de fructifications appelées périthèces. Chaque noyau diploïde subit la méiose6. Les quatre produits haploïdes d'une méiose restent ensemble dans un sac appelé un asque chez Neurospora crassa chacun des quatre produits de la méiose subit encore une autre division mitotique, ayant pour résultat une octade de huit ascospores dans chaque asque. Les ascospores7 germent et produisent des hyphes ayant pour résultat des colonies. [Raj, 09] Figure A.1 Cycle de vie de N.crassa. [Sea, 72] 2.2. Cycle de développement de Podospora anserina Podospora anserina est un ascomycète8 filamenteux hétérothallique, dont le cycle de type haplobiontique présente plusieurs caractéristiques intéressantes : Dans les conditions appropriées (c’est-à-dire après l'épuisement des nutriments dans le milieu de culture), les mycéliums9 de chaque type sexuel (mat+ et mat-) différencient à la fois des gamètes reproducteurs mâles et des organes reproducteurs femelles. La fécondation ne se produit qu'entre un organe mâle (et un seul) et un seul organe femelle de type sexuel opposé. 6 Méiose : Phase de reproduction du champignon. Ascomycète : Champignon dont la reproduction sexuée consiste en la formation d'asques. 8 Ascospores : Spore de reproduction sexuée formée dans un asque. 9 Mycélium : Ensemble des hyphes ou des filaments d'un champignon. 7 146 Annexe A Les champignons filamenteux Pour ceci, l'organe femelle produit une extension cytoplasmique, le trichogyne qui attrape une micro-conidie de type sexuel opposé. Le noyau fécondant entre dans l'ascogone. Un point intéressant est que la caryogamie10 ne se produit pas immédiatement. [Gaa, 05] D'abord, les deux noyaux se divisent dans un cytoplasme commun pour former un syncytium. Les noyaux migrent ensuite par paires de types sexuels opposés dans des cellules spécialisées, les hyphes ascogènes. Ces hyphes donnent naissance après une ou deux divisions à des cellules spécialisées, les crochets (ou crozier en anglais), où les deux noyaux se divisent de manière synchrone. Un septum spécial est mis en place et donne naissance à une cellule à deux noyaux, un mat+ et un mat-. Cette fusion est suivie immédiatement de la méiose, d'une mitose post méiotique et de la formation de 4 ascospores bi-nuclées ou 5 ascospores 3 binuclées et 2 uni-nuclées. Tout ceci se produit dans une structure protectrice spécialisée, le périthèce11. Le processus dans les conditions optimales prend environ 4 jours, au bout desquels les ascospores sont éjectées à l'extérieur du périthèce par un mécanisme qui fait intervenir une forte turgescence12. [Gaa, 05] Figure A.2 Cycle de vie de P.anserina. [Cop, 97] 10 11 12 Caryogamie : Fusion du noyau mâle et du noyau femelle. Périthèce : organe de fructification sexuée en forme d'urne ou de bouteille présentant à son sommet une ouverture l'ostiole. Turgescence : état cellulaire associé à l'élongation de la cellule causée par une entrée d'eau dans cette même cellule. 147 Annexe A Les champignons filamenteux 3. Comparaison des deux champignons Le tableau1 ci-dessous dresse un comparatif entre les deux champignons filamenteux d’intérêt. Cette comparaison concerne trois aspects : l’écologie, la croissance végétative et la reproduction. o Par écologie, est désigné l’environnement dans lequel évoluent naturellement les deux organismes. Ainsi, N.crassa préfère un milieu (ou un habitat) où les plantes sont tuées par le feu et un climat chaud pour se développer alors que pour P.anserina, il est restreint et se trouve notamment sur les déjections des herbivores. o Pour la croissance végétative, elle se caractérise par une production de pigment orange chez N.crassa et un pigment vert chez P.anserina, un taux de croissance élevé est observé chez N.crassa par rapport à P.anserina pour qui il est moyen, enfin la sénescence est observée chez P.anserina ce qui n’est pas le cas pour N.crassa o Pour la reproduction asexuée des deux champignons, elle n’existe pas chez P.anserina alors que pour N.crassa se caractérise par la germination de conidies. La durée d’une génération durant la phase sexuée est d’une semaine pour P.anserina dont la physiologie du type sexuel est pseudo-homothallique et de trois semaines pour N.crassa avec une physiologie du type sexuel strictement hétérothallique. 148 Annexe A Écologie Les champignons filamenteux Neurospora crassa Podospora anserina Préfère les plantes tuées par le feux Restreint, sur les déjections des herbivores Biotopes souvent de grande taille et à faible compétitivité Toujours des petits biotopes et de haute compétitivité Préfère les climats chauds Répandu dans le monde Elevé à (9 cm / jour) Moyen (7 mm / jour) Syndrome du vieillissement Généralement immortel avec certaines souches du vieillissement Sénescence dans toutes les souches étudiées Interférences sur les hyphes Non encore décrites Présente Pigmentation Caroténoïdes (orange) Mélanines (vertes) Reproduction asexuée Efficace avec la germination des conidies Non Durée d'une génération sexuée Trois semaines Une semaine Physiologie du type sexuel Strictement hétérothallique Pseudo-homothallique Dormance des ascospores Oui Non Déclenchement de la germination des ascospores Choc thermique à 60 ° C ou produits chimiques (par exemple, le furfural) Passage par la voie digestive des herbivores dans la nature (Dans un milieu minimum nutritif contenant de l'acétate d'ammonium dans les laboratoires) Habitat Distribution Croissance végétative Taux de croissance Reproduction Tableau A.1 Comparaison entre N.crassa et P.anserina. [Esp, 08] 149 Annexe A Les champignons filamenteux 4. Conclusion Les deux champignons filamenteux d’intérêt que sont Neurospora crassa et Podospora anserina ont été présentés à travers une description des différentes étapes de leur développement. Aussi, La comparaison de ces deux organismes montre qu’ils peuvent être considérés à la fois comme étant suffisamment proches et éloignés, pour qu’une comparaison de données expérimentales qui leur sont associées puisse être intéressante. Dans ce qui suit, nous allons définir un type particulier de séquences : les EST (Expressed Sequence Tags) qui sont de plus en plus utilisés par les biologistes pour trouver les informations sur les fonctions de gènes d’organismes divers et pour évaluer le taux d’expression des gènes associés. 150 Annexe B 5 Annexe B. Les données de biologie moléculaire 1. Introduction Dans l'état actuel des connaissances, une méthode employée en génomique depuis plusieurs années, repose sur l'emploi des séquences partielles d'ADN complémentaire (ADNc). Ces séquences partielles, nommées Expressed Sequence Tags (ESTs) sont accumulées par millions dans les banques de données depuis les années 1990. La comparaison d'un EST avec une séquence génomique conduit en effet au repérage de zones homologues qui, normalement, correspondent à des gènes exprimés. Ainsi la détection des gènes dans les séquences d'ADN par le biais des ESTs et la détection de leur profil d'expression font donc un usage intensif de ces données, qui ont été déterminantes pour le succès de nombreux travaux récents en génétique moléculaire [Hat, 04]. 2. Définition des Expressed Sequence Tags (ESTs) Les ESTs (Expressed Sequence Tags) sont de courts fragments représentant les gènes exprimés dans une cellule dans un temps donné. Ils sont régulièrement utilisés pour mesurer le taux d’expression des gènes [Meg, 02]. Figure B.1 Procédé d’obtention des ESTs. [Meg, 02] 151 Annexe B. Les données de biologie moléculaire 3. Procédure d’obtention des ESTs Différents laboratoires publiques et compagnies privées se sont lancés dans des programmes de séquençage d'ADNc à partir de prélèvements spécifiques. Les étapes suivies pour l'obtention d'EST sont les suivantes [Meg, 02] : o On considère la séquence génomique d'un chromosome. Les gènes des cellules eucaryotes (non bactériennes), ont leurs séquences généralement codantes (appelées 'exons') interrompues par des 'introns' (séquences de gène situées entre deux 'exons' et dont la fonction est encore inconnue). o La transcription est initiée ; elle se définit comme la copie d'une molécule d'ADN par la création d’une molécule d'ARN. La molécule d'ARN directement synthétisée à partir du modèle ADN, reste dans le noyau de la cellule et est traitée par un complexe enzymatique qui enlève tous les introns. Cette étape est appelée épissage. o Construction d'une banque d'ADNc : à partir d'un tissu ou de cellules en culture, les ARNm sont purifiés, transformés en ADNc (copie double brin des ARNm) et finalement clonés ce qui produit une librairie de clones. o Séquençage des ESTs : de nombreux clones sont séquencés de manière systématique, mais partielle (pour réduire le temps et le coût). Chaque fragment d'ADNc cloné est séquencé une seule fois ('single-pass') sur quelques centaines de nucléotides (généralement de 300 à 600 paires de base) à partir de chacune de ses extrémités : on obtient ainsi des banques de séquences, avec un taux relativement important d'erreurs dans les séquences (de 1 à 3%). 4. Banques de données de séquences Les banques de données de séquences en biologie moléculaire constituent un outil indispensable à l'activité quotidienne du chercheur amené à travailler avec des séquences. Elles représentent une source précieuse d'informations, dont l'exhaustivité permet théoriquement d’effectuer des recherches efficaces et globales sur les connaissances du moment au sujet de tel gène ou de telle protéine. Un autre intérêt de ces bases réside dans l'information qui accompagne les séquences (i.e. annotations, expertises, bibliographies). Ces 152 Annexe B. Les données de biologie moléculaire informations peuvent parfois constituer les rares annotations disponibles sur certaines séquences. Enfin la présence de références à d'autres bases permet d'avoir accès à d'autres informations complémentaires. Ainsi, en fonction de la nature de l’information produite par ces séquences, deux types de banques peuvent être distinguées : o Celles qui correspondent à une collecte des données la plus exhaustive possible et qui offrent finalement un ensemble plutôt hétérogène d'informations dites banques de séquences généralistes exemple : EMBL1, GenBank2, DDBJ3[Mor, 02]. o Celles qui correspondent à des données plus homogènes établies autour d'une thématique et qui offrent une valeur ajoutée à partir d'une technique particulière ou d'un intérêt suscité par un groupe d'individus dites banques de séquences spécialisées exemple : enzymes, pathologies, gène et expression, etc [Mor, 02]. Banques d'ESTs Les ESTs, par leur nature, constituent une catégorie de séquences nucléotidiques à part, et une ressource essentielle pour les biologistes. Le NCBI et l'EBI produisent chacun une banque ne contenant que des ESTs. D'autre part, il existe plusieurs banques spécialisées dans le traitement et l'analyse des EST, offrant différents niveaux d'analyse et d'interprétation de cette information. La banque d'EST fournie par le NCBI est dbEST4, celle-ci est une division de GenBank qui regroupe toutes les séquences issues du séquençage des ESTs. En date du 15 avril 2005, dbEST contient plus de 26 millions de séquences représentant plus de 800 organismes. Sa forte croissance est due aux nombreux programmes de séquençage d'EST qui ont été mis en œuvre ces dernières années. Les organismes les plus représentés dans dbEST sont : Homo sapiens (22% des séquences) et Mus musculus (16%), le tableau 2 reprend une liste non exhaustive d'organismes et met en évidence le nombre d'EST pour chacun d'entre eux [Hat, 04]. 1 http://www.ebi.ac.uk/ebi_docs/embl_db/ebi/topembl.html 2 http://www.ncbi.nlm.nih.gov/Web/GenBank 3 http://www.ddbj.nig.ac.jp 4 http://www.ncbi.nlm.nih.gov/dbEST 153 Annexe B. Les données de biologie moléculaire Organisme Homme (Homo Sapiens) Vache (Bos taurus) Chien (Canis familiaris) Souris (Mus musculus) Rat (Rattus norvegicus) Sanglier (Sus scrofa) Poule (Gallus gallus) Poisson (Danio Rerio) Cione (Ciona intestinalis) Nombre d'EST 6 054 956 59 2603 323 129 4 334 174 691 988 435 156 532 239 606 296 684 319 Tableau B.1 dbEST - Nombre d'EST par organisme. La banque dbEST centralise donc les séquences EST issues des différents projets de séquençage. Cette banque présente une forte redondance due au fait que ces séquences ont été obtenues à partir de clones pris au hasard dans de nombreuses banques d'ADNc établies à partir de divers tissus. Par conséquent, des EST peuvent correspondre à des parties différentes, souvent (mais pas toujours) chevauchantes d'un même gène exprimé [Hat, 04]. 5. Conclusion La quantité de données dans le domaine de la biologie ne cesse d'augmenter en particulier avec le séquençage des génomes de différents organismes mais également la grande diversification des informations produites (i.e. séquences primaires, structures moléculaires, cartographie, collection de clones...). Toutes ces informations sont regroupées soit dans des banques de données de séquences dites « généralistes » ou « spécifiques ». Dans ce qui précède, nous avons présenté un type particulier de séquences : les ESTs (Expressed Sequence Tags), leur procédure d’obtention et le nombre de séquences d’ESTs de quelques d’organismes. Cependant, ces ESTs sont généralement exploités pour leur partie séquence mais les informations textuelles associées qui renseignent sur le protocole expérimental sont ignorées. De ce fait, un recours à la fouille de données, plus précisément la fouille de textes apporterait une solution pour exploiter au mieux ces informations inconnues et potentiellement utiles pour le biologiste. 154 Annexe C 5 Annexe C La méthode de STANFORD de construction des ontologies Présentation Il existe une multitude de méthodes d’ingénierie ontologique mais l’absence de directives structurées et communes ralentisse le développement d’ontologie à l’intérieur et entre les équipes, l’extension de n’importe quelle ontologie, la possibilité de réutilisation de l’ontologie. On entend par méthodologie, les procédures de travail, les étapes, qui décrivent le pourquoi et le comment de la conceptualisation puis de l’artefact construit. Dans ce qui va suivre les étapes générales de la méthode de STANDFORD [Noy, 02] pour la construction des ontologies sont décrits ci-après. Elle comporte sept étapes qui sont les suivantes : 1. Déterminer le domaine et la portée de l’ontologie. 2. Réutiliser des ontologies existantes. 3. Enumérer les termes importants de l’ontologie. 4. Définir les classes et la hiérarchie de classes. 5. Définir les propriétés des classes (les attributs). 6. Définir les facettes des attributs. 7. Créer des instances des classes dans la hiérarchie ou exemples. Détaillons maintenant ces étapes : Etape 1 : Déterminer le domaine et la portée de l’ontologie. Cette étape se fait en répondant aux questions ci-dessous tout au long de la conception de l’ontologie et qui aident à définir la portée du domaine de l’ontologie : · Quel est le domaine que va couvrir l’ontologie ? · Dans quel but utiliserons-nous l’ontologie ? · A quels types de questions l’ontologie devra-t-elle fournir des réponses ? · Qui va utiliser et maintenir l’ontologie ? 157 Annexe C La méthode de STANFORD de construction des ontologies Afin de mieux cerner la portée de l’ontologie on peut recourir aux questions de compétence, c'est-à-dire les questions auxquelles le système projeté est censé répondre. Ces questions permettent de savoir si l’ontologie contient suffisamment d’informations pour répondre aux questions et s’il y a une nécessité de détail dans les réponses ou de représentation d’un domaine particulier. Etape 2 : envisager une éventuelle réutilisation des ontologies existantes. Dans tout domaine de recherche, il est utile de profiter de ce que les autres ont fait afin d’en tirer les informations et ainsi permettre d’élargir le travail et l’affiner pour répondre aux besoins. Il est intéressant d’importer des ontologies déjà existantes (dans le même domaine) et les adapter à nos besoins. Etape 3 : Enumérer les termes importants de l’ontologie. Il est important d’établir en premier lieu une liste complète des termes concernant le domaine d’intérêt, et cela sans se soucier de la catégorisation de ces derniers dans des classes ou dans une hiérarchie. On peut extraire ces termes à partir de produits terminologiques comme les corpus, les thésaurus, les taxonomies etc. les questions à se poser pour établir cette liste sont les suivantes : · Sur quels termes souhaiterons-nous discuter ? · Quelles sont les propriétés de ces termes ? · Que veut-on dire par ces termes ? Etape 4 : Définir les classes et la hiérarchie de classes. A partir de la liste de l’étape précédente, on commence par définir les classes en sélectionnant les termes qui décrivent des objets ayant une existence indépendante. Ce sont ces termes qui constitueront les classes de l’ontologie. Il faut ensuite organiser ces classes dans une taxonomie hiérarchique en suivant la règle suivante : « Si une classe A est super classe d’une classe B alors toute instance de B est aussi une instance de A.» Il existe différentes approches qui permettent la définition d’une hiérarchie des classes, il n’y a pas de meilleure méthode. Cela dépend en fait du point de vue du développeur : · Un procédé de développement de haut en bas : c’est une approche systémique qui commence par une définition des concepts les plus généraux du domaine et se poursuit par la spécialisation des concepts. 158 Annexe C · La méthode de STANFORD de construction des ontologies Un procédé de développement de bas en haut : commence par la définition des classes les plus spécifiques, appelées feuilles de la hiérarchie, et se poursuit avec le regroupement de ces classes en concepts plus généraux. · Un procédé combiné de développement : représente une combinaison des deux approches précédentes, c’est l’approche la plus souvent utilisée par les développeurs en raison du fait que les concepts du milieu sont en général plus descriptifs du domaine. Au tout début, les concepts les plus saillants sont définis ensuite ils sont généralisés ou spécialisés selon le cas. Etape 5 : Définir les propriétés des classes (les attributs) Dans cette étape, on devra décrire la structure interne des concepts tirés pendant l’étape précédente. Les propriétés définissent la structure interne et les caractéristiques des classes. La plupart des termes restants (qui ne sont pas des classes) ont de fortes chances de représenter les propriétés de ces classes. Chaque propriété sera ensuite rattachée comme attribut à la classe qu’elle décrit. Il faut ensuite prendre en considération les classes et les sous-classes, ainsi un attribut doit être rattaché à la classe la plus générale pouvant avoir cette propriété et toutes les sous-classes de cette classe héritent cet attribut. On peut citer quelques recommandations : · Les attributs inverses : on parle d’attributs inverses quand la valeur d’un attribut dépend de la valeur d’un autre attribut. Il est parfois plus commode de stocker l’information dans les deux sens bien que cela paraisse redondant. · Valeurs par défaut : une valeur par défaut d’un attribut est une valeur particulière qui est la même pour la plupart des instances d’une classe. Le système renseigne automatiquement cette valeur par défaut à chaque création d’une nouvelle instance appartenant à une classe comportant cet attribut. · Nommer les classes et les attributs : il faut définir une convention de nomination des classes et attributs et y adhérer complètement. Cela permet de mieux comprendre l’ontologie et d’éviter les erreurs les plus fréquentes de modélisation. Etapes 6 : définir les facettes des attributs. Les attributs peuvent avoir plusieurs facettes. Les facettes les plus communes décrivent : 159 Annexe C · La méthode de STANFORD de construction des ontologies Le type de valeur des attributs : désigne le type de valeur pouvant être affectée à un attribut. Les plus typiques sont les suivants : chaîne de caractère, nombre ou enveloppe ou entier, booléen, énuméré (précise une liste de valeurs spécifiques autorisées pour l’attribut), instance (permet de définir des relations entre les concepts). Remarque : ici « instance » est un type d’attribut offert par l’éditeur d’ontologies Protégé. Ce type indique que la propriété est une relation entre la classe comportant cet attribut et celle spécifiée avec l’attribut. Exemple : pour modéliser la relation « avoir_père » entre les deux classes « père » et « enfant », il suffit d’ajouter une propriété de type « instance » dans la classe « enfant » qui a le nom « avoir_père ». La classe cible est la classe père. · Le nombre de valeur ou cardinalité : désigne le nombre de valeurs qu’un attribut peut avoir. Une cardinalité peut être unique (autorise une seule valeur) ou multiple (autorise plusieurs valeurs). Il utile de spécifier pour un attribut une cardinalité minimale et une cardinalité maximale. · Le domaine et le rang d’un attribut : l’étendue ou le rang d’un attribut représente les classes autorisées pour les attributs de type « Instance ». Le domaine d’un attribut représente les classes autorisées auxquelles cet attribut est rattaché ou les classes dont l’attribut décrit les propriétés. Etape 7 : créer les instances. Cette étape consiste à créer les instances qui représentent des entités réelles des classes. On commence par créer une instance individuelle de la classe choisie puis on la renseigne avec les valeurs des attributs. 160 Annexe D 5 Figure D.1 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =500 fiches d’ESTs (Neurospora crassa). 162 Figure D.2 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =1 000 fiches d’ESTs (Neurospora crassa). 163 Figure D.3 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =5 000 fiches d’ESTs (Neurospora crassa). 164 165 Figure D.4 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =10 000 fiches d’ESTs (Neurospora crassa). 166 Figure D.5 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =50 000 fiches d’ESTs (Neurospora crassa). 167 Figure D.6 Résultats de l’extraction automatique des deux métriques pour un échantillon d’apprentissage =100 000 fiches d’ESTs (Neurospora crassa).