N° d'ordre : THÈSE présentée à L'UNIVERSITE PARIS IX-DAUPHINE U.F.R. Sciences des Organisations pour obtenir le titre de DOCTEUR ès SCIENCES Spécialité : INFORMATIQUE par Noël CONRUYT Sujet : Amélioration de la Robustesse des Systèmes d'Aide à la Description, à la Classification et à la Détermination des Objets Biologiques Soutenue le 24 mai 1994 devant le jury composé de : M. E. DIDAY Directeur Mme M. M.C. HATON D. DOUMENC Rapporteurs Mme MM S. PINSON C. LEVI J. LE RENARD J. LEBBE M. MANAGO Examinateurs “L'Université n'entend donner aucune approbation ni improbation aux opinions émises dans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs”. A ma femme Eliane, pour la patience et le soutien dont elle a fait preuve pendant toute la durée de cette thèse, A toute ma famille, toujours présente et disponible, A mon cher professeur de guitare Roger Delvoye, dont l'intelligence musicale, la sensibilité, la rigueur et l'intimité du travail avec l'instrument m'ont servi d'exemple et de mode de pensée pour notre recherche expérimentale en biologie. A tous mes amis montagnards, guitaristes, VAT (Volontaires Aux Tropiques), proches ou lointains... je dédie cette thèse. REMERCIEMENTS Ce travail est un résultat d'une démarche pluri-disciplinaire à la frontière entre l'informatique, la biologie et les mathématiques. C'est aussi le fruit d'une continuité dans la recherche de solutions adaptées à des utilisateurs non informaticiens qui remonte à bientôt dix ans, depuis l'apparition de TOM, premier système expert en agriculture sur les maladies de la tomate en 1984. C'est avec plaisir que j'exprime ici ma profonde gratitude envers toutes les personnes qui ont permis ce rapprochement entre différentes disciplines et qui ont contribué de près ou de loin à la réalisation de cette thèse. Tout d'abord, je salue Monsieur Edwin Diday, mon Directeur de Thèse, Professeur à l'Université Paris IX-Dauphine et Directeur de Recherches à l'INRIA (Institut National de Recherche en Informatique et en Automatique), qui m'a encouragé dans l'analyse formelle des objets biologiques, me forçant à plus de rigueur. En outre, il a instauré dans son équipe CLOREC un véritable débat d'idées très enrichissant pour rapprocher les différentes communautés de l’intelligence artificielle, de l’analyse des données, de la biologie, etc.. Qu'il soit remercié pour la qualité du cadre de recherche qu'il procure à ses thésards. Ensuite, Monsieur Jacques Le Renard, Directeur de Recherches à l'INRA (Institut National de Recherche Agronomique) et détaché au MNHN (Muséum National d'Histoire Naturelle), qui a dirigé aussi ce travail pour la partie appliquée en biologie. Grâce à lui, j'ai pu “basculer” de l'agronomie à l'informatique et effectuer tous ces travaux de recherche sur des applications concrètes jusqu'à la thèse. Qu'il soit remercié pour son grand dévouement, nos âpres discussions très enrichissantes, l'aide précieuse qu'il m'a apportée pour rédiger ce manuscrit et le perfectionner dans son fond et dans sa forme. Je suis aussi très reconnaissant au Professeur Claude Lévi pour sa disponibilité en tant qu'expert au MNHN, sa patience en l'attente des outils informatiques permettant de saisir et d'analyser sa connaissance. A travers lui, je pense aussi aux autres experts que j'ai pu côtoyer à l'INRA, notamment Dominique Blancard et Serge Mercier qui ont permis à la méthode définie dans cette thèse de voir le jour. Néanmoins, il reste encore bien des questions soulevées par l'approche expérimentale et auxquelles nous comptons bien apporter des réponses dans l'avenir ! Je continuerai en m'adressant aux Professeurs Marie-Christine Haton du CRIN (Centre de Recherche en Informatique de Nancy) et Dominique Doumenc du LBIMM (Laboratoire de Biologie des Invertébrés Marins et Malacologie) au Muséum, qui m'ont fait l'honneur d'être rapporteurs pour cette thèse en informatique appliquée en biologie. Ils témoignent ainsi de la possibilité de rapprocher deux disciplines sur un sujet qui nécessitera une grande synergie dans l'avenir : l’inventaire et l'analyse de la biodiversité. Ces travaux font suite à une impressionnante recherche dans le domaine de l'intelligence artificielle et de l'analyse des données. L'objectif est d'étendre cette analyse aux données structurées dans le souci de conserver la richesse en information des descriptions. Je remercie Madame le Professeur Suzanne Pinson (Université Paris IXDauphine) d'avoir bien voulu participer à ce jury et témoigner ainsi de cette évolution. J'apprécie tout aussi bien la présence de Jacques Lebbe (Maître de Conférences à l'Université Paris VI) qui par ses connaissances profondes et son attrait sur le sujet est pour moi un interlocuteur privilégié et précieux auquel je porte une grande reconnaissance, ainsi qu'à sa femme Régine Vignes. Je terminerai la composition du jury en remerciant spécialement Michel Manago (Docteur en informatique et Fondateur d'AcknoSoft) grâce à qui j'ai pu effectuer cette thèse en associé dans le cadre d'une convention CIFRE avec l'ANRT (Agence Nationale de la Recherche et de la Technologie) : joindre des impératifs de recherche et de développement n'est pas facile au sein d'un travail de thèse, mais aller jusqu'au bout de ses idées en les faisant aboutir avec un produit commercial est une expérience qui mérite d'être vécue. Cet objectif n'a pas été complètement réalisé. Néanmoins, l'idée est bien d'établir une chaîne de compétences dans la réalisation de logiciels qui reprennent les acquis des thèses précédentes. Bonne chance donc à Eric Auriol dans son sujet sur l'intégration de l'induction et du raisonnement à partir de cas. J'ai beaucoup apprécié tes remarques et nos discussions au niveau de la formalisation des algorithmes. Pour le réconfort moral pendant les périodes difficiles (programming in C !), merci à Alain Foubert du LBIMM, à Sylvie et Jérôme d'AcknoSoft. Je n'oublierai pas de mentionner la contribution des mathématiciens et informaticiens de l'IREMIA (Institut de Recherche en Mathématiques et Informatique Appliquées) à l'Université de la Réunion pour la réalisation de ce travail. Leur accueil très chaleureux et le temps qu'ils m'ont laissé pour rédiger ce manuscrit en organisant mon emploi du temps d'ATER (Attaché Temporaire d'Enseignement et de Recherche) m'ont été très profitables. Je remercie aussi tous les biologistes (Laboratoires de biologie marine et de biologie végétale) de la Faculté des Sciences pour les suggestions apportées qui justifient ou mettent à l'épreuve notre démarche expérimentale. Pour m'avoir permis de passer un service militaire sympathique sous les tropiques à l'INRA de Guadeloupe et bien que le système expert tomate n'avait pas prévu les dégâts causés par le cyclône Hugo, je remercie vivement Monsieur Claude Millier, Directeur de Recherches à l'INRA qui a également fait participer financièrement l'Institut sur ce projet de thèse. Que tout ceux qui n'ont pas été cités nommément trouvent ici l'expression de mes remerciements et de ma sincère gratitude. Noël Conruyt TABLE DES MATIERES INTRODUCTION ........................................................................1 I LE CHEMINEMENT CONCEPTUEL.........................................11 1.1 Les systèmes experts à l'INRA.............................................11 1.1.1 Bien définir la cible des systèmes experts.....................12 1.1.1.1 Les experts .............................................12 1.1.1.2 Les techniciens ou conseillers agricoles.............12 1.1.1.3 Les agriculteurs........................................13 1.1.1.4 Conclusion .............................................13 1.1.2 Bien définir les objectifs et les moyens........................13 1.1.2.1 Savoir observer........................................14 1.1.2.2 Savoir raisonner .......................................14 1.1.2.3 Conclusion .............................................15 1.2 Le projet INSTIL.............................................................15 1.2.1 Neddie.............................................................16 1.2.2 Main ...............................................................16 1.2.3 Maggy.............................................................17 1.2.4 Conclusion........................................................18 1.3 Des systèmes experts à l'apprentissage....................................19 1.3.1 Les systèmes experts ............................................19 1.3.2 Acquérir les connaissances de l'expert ........................21 1.3.3 Adaptation à l'utilisateur.........................................24 1.3.4 Comparaison des deux approches..............................26 1.3.5 Conclusion........................................................29 1.4 KATE..........................................................................29 1.4.1 Une bonne représentation des connaissances..................29 1.4.2 Des mécanismes d'exploitation adaptés........................31 1.5 L'aide à la classification au MNHN........................................36 1.5.1 Comparaison avec l'opération SEPV de l'INRA..............36 1.5.2 Utilisation des langages de frames et de l'hypertexte........40 1.5.3 L’application SPONTAX........................................42 1.6 Conclusion....................................................................45 II QU'EST-CE QUE LA ROBUSTESSE ? ....................................49 2.1 Aspects théoriques ...........................................................50 2.1.1 La robustesse statistique .........................................50 2.1.2 Le formalisme mathématique de description...................51 2.1.3 Combiner du numérique et du symbolique ....................51 2.2 Aspects pratiques.............................................................52 2.2.1 Les facteurs qualitatifs............................................52 2.2.1.1 Fiabilité .................................................52 2.2.1.2 Compréhension........................................52 2.2.1.3 Précision................................................53 2.2.1.4 Exhaustivité ............................................53 2.2.1.5 Cohérence ..............................................54 2.2.1.6 Redondance ............................................54 2.2.1.7 Mise à jour..............................................55 2.2.1.8 Ergonomie..............................................55 2.2.1.9 Tolérance aux bruits...................................57 2.2.1.10 Adaptation aux besoins exprimés ..................58 2.2.2 Les critères globaux d'appréciation............................. 59 2.2.2.1 Applicabilité à des domaines réels................... 59 2.2.2.2 Un langage de représentation puissant.............. 60 2.2.2.3 Facilité de mise en oeuvre par les utilisateurs...... 60 2.2.2.4 Incrémentalité.......................................... 60 2.3 Discussion .................................................................... 61 2.3.1 L'informaticien........................................... 61 2.3.2 Le statisticien............................................. 61 2.3.3 Le biologiste.............................................. 63 2.3.4 Le béotien................................................. 64 2.3.5 L'expert................................................... 64 2.4 Notre méthode d'acquisition des connaissances.......................... 66 2.4.1 Différents types de connaissances à acquérir.................. 66 2.4.1.1 Connaissances de base................................ 66 2.4.1.2 Connaissances de faits observés..................... 66 2.4.1.3 Connaissances produites ............................. 67 2.4.2 Deux types de traitements des exemples pour la classification et la détermination........................................ 68 2.4.3 La phase de validation des connaissances apprises........... 70 III TERMINOLOGIE ET CONCEPTS MIS EN ŒUVRE ................ 73 3.1 Extension et compréhension................................................ 73 3.1.1 L’extension........................................................ 73 3.1.1.1 Point de vue du philosophe et du mathématicien .. 73 3.1.1.2 Point du vue des biologistes et des naturalistes.... 74 3.1.2 La compréhension................................................ 75 3.2 Classe et concepts............................................................ 78 3.2.1 La classe........................................................... 78 3.2.1.1 Point de vue des mathématiciens .................... 79 3.2.1.2 Point de vue des systématiciens ..................... 79 3.2.2 Les concepts....................................................... 83 3.2.2.1 Du point de vue naturaliste........................... 84 3.2.2.2 Du point de vue mathématique....................... 87 3.3 Classement et classification................................................. 89 3.3.1 Classer et le classement.......................................... 89 3.3.2 Classifier et la classification..................................... 89 3.4 Détermination et identification.............................................. 93 3.4.1 Détermination par comparaison directe......................... 94 3.4.2 Détermination par comparaison avec des descriptions ....... 94 3.5 Apprentissage et raisonnement ............................................. 95 3.6 Individus, instances et objets............................................... 97 3.7 Synthèse des concepts utilisés dans cette thèse........................... 99 IV LE ROLE CENTRAL DES DESCRIPTIONS EN SCIENCES NATURELLES ........................................................................101 4.1 Objectifs de la description..................................................101 4.2 Qualités de la description...................................................102 4.3 Qualités des descriptions...................................................103 4.4 La représentation des données descriptives..............................103 4.4.1 Structuration naturelle..........................................104 4.4.2 La logique de composition.....................................105 4.4.3 La logique des points de vue ..................................106 4.4.4 La logique de spécialisation....................................106 4.4.5 La logique de particularisation.................................107 4.4.6 La logique d' itération..........................................107 4.4.7 Les conditions contextuelles...................................109 4.5 Représentation structurée selon un modèle descriptif...................110 4.6 Illustration sur les données des éponges marines.......................112 4.6.1 Acquérir l’observable............................................112 4.6.2 Décomposition de l’entité globale en objets...................113 4.6.3 Recherche des attributs de chaque objet.......................114 4.6.4 Recherche des valeurs de chaque attribut .....................114 4.6.5 Les propriétés d’un objet observable..........................115 4.6.5.1 Statuts..................................................115 4.6.5.2 Attributs................................................117 4.6.5.3 Autres propriétés......................................122 4.6.6 Niveau de précision d’un objet.................................123 4.6.6.1 Spécialisation..........................................123 4.6.6.2 Particularisation.......................................124 4.6.7 Possibilité de multi-instanciation de chaque objet............125 4.6.8 Définition des dépendances inter / intra objets................126 4.6.9 Niveau de généralité d’un objet ................................127 4.6.9.1 Représentant unique..................................128 4.6.9.2 Représentant multiple ................................129 4.6.10 L’imprécision d’observation..................................129 4.6.10.1 Au niveau de l’observable..........................130 4.6.10.2 Au niveau de l’observé.............................131 V FORMALISATION DE LA NOTION D’OBJET EN BIOLOGIE ...135 5.1 Les assertions composites..................................................135 5.1.1 Rappel sur les assertions (symboliques) .....................135 5.1.2 Proposition : les objets assertions.............................137 5.1.3 Définition des assertions composites .........................137 5.1.4 Exemples.........................................................139 5.2 Les hordes composites......................................................141 5.2.1 Rappel sur les hordes (symboliques).........................141 5.2.2 proposition : les objets hordes.................................141 5.2.3 Définition des hordes composites.............................142 5.2.4 Exemples.........................................................143 5.3 Les objets de synthèse......................................................144 5.3.1 Rappel sur les objets de synthèse (symboliques)............144 5.3.2 Proposition : les objets de synthèse...........................145 5.3.3 Exemple..........................................................145 5.4 Les objets munis de méthodes et de propriétés..........................146 5.4.1 Cas des variables : ..............................................146 5.4.2 Cas des objets :..................................................147 5.5 Les objets classifiés ........................................................148 5.6 Les exemples d'apprentissage.............................................149 5.7 Conclusion ..................................................................151 VI FORMALISATION INFORMATIQUE DES DESCRIPTIONS : HYPERQUEST ........................................................................153 6.1 Pourquoi HyperQuest ?.....................................................153 6.2 Particularités d’HyperQuest................................................154 6.3 Le générateur de modèle....................................................155 6.3.1 Conception d’un modèle descriptif ............................156 6.3.2 Règles d’élaboration du modèle descriptif....................158 6.3.3 Dépendances......................................................160 6.3.4 Spécialisations....................................................162 6.3.5 Itérations..........................................................163 6.3.6 Edition d’un objet................................................167 6.3.7 Edition d’un attribut .............................................169 6.3.8 Edition des valeurs classifiées..................................171 6.4 Le générateur automatique de questionnaire .............................172 6.4.1 Principe de construction d'un questionnaire..................172 6.4.2 Entités conceptuelles et hypertextes ...........................174 6.5 L’éditeur de cas : le questionnaire.........................................176 Caractéristiques .........................................................176 6.5.1 Représentation de l’individu....................................176 6.5.2 Représentation des objets de l’individu.......................177 6.5.2.1 Un objet = une carte..................................177 6.5.2.2 Représentation des statuts possibles d'un objet...178 6.5.3 Représentation des attributs d’un objet........................179 6.5.3.1 Attributs qualitatifs...................................180 6.5.3.2 Attributs numériques.................................181 6.5.3.3 Attributs commentaires ..............................181 6.5.3.4 Attributs classifiés....................................182 6.5.4 Représentation des spécialisations d’un objet................183 6.5.5 Représentation des multi-instanciations d’un objet..........186 6.5.6 Représentation des règles entre objets.........................188 6.5.7 Personnalisation des objets.....................................189 Fonctionnalités..........................................................189 6.5.8 Le menu “Cas”...................................................191 6.5.8.1 Le choix “Nouveau” .................................192 6.5.8.2 Le choix “Dernier” ...................................194 6.5.8.3 Le choix “Ancien ...”................................194 6.5.8.4 Le choix “Enregistrer”...............................195 6.5.8.5 Le choix “Consulter l'expert”.......................196 6.5.8.6 Le choix “Voir la liste”...............................197 6.5.8.7 Le choix “Convertir en Casuel”.....................197 6.5.9 Le menu “Personnaliser” .......................................198 6.5.9.1 Le choix “Préférences...” ...........................198 6.5.9.2 Le choix “Scanner une image”......................198 6.5.9.3 Le choix “Tout importer”............................198 6.5.9.4 Le choix “Importer une image”.....................199 6.5.9.5 Le choix “Déplacer l’image” ........................199 6.5.9.6 Le choix “Associer un bouton”.....................199 Les boutons rectangulaires...........................200 Les boutons polygonaux.............................201 6.5.9.7 Le choix “Changer le titre”..........................201 6.5.9.8 Le choix “Déplacer les boutons”....................201 6.5.9.9 Le choix “Eliminer un bouton” .....................201 6.5.9.10 Le choix “Déplacer les champs”...................201 6.5.9.11 Le choix “Sauver la carte” .........................202 6.5.10 Les boutons.....................................................202 6.5.10.1 Le bouton “Voir une image”.......................202 6.5.10.2 Le bouton “Naviguer”..............................204 6.5.10.3 Le bouton “Coursier”...............................204 6.6 Conclusion...................................................................205 VII LE TRAITEMENT DES DESCRIPTIONS BIOLOGIQUES : KATE ET CASEWORK.............................................................207 7.1 Formalisation de l'approche inductive....................................207 7.1.1 Rappel des Notations............................................208 7.1.2 Principe de la classification par arbre de décision...........209 7.1.3 Algorithme........................................................210 7.1.4 Description des fonctions principales de l'algorithme.......212 7.1.4.1 OrdonnerCritères (E, Yd) ...........................212 7.1.4.2 Meilleure_division (E, s) ............................214 7.1.4.3 Critèred'Arrêt (E).....................................215 7.1.4.4 ConstruireFeuille (E).................................217 7.1.4.5 CalculerSeuil (A,E)...................................217 7.2 De l'induction au raisonnement par cas...................................219 7.2.1 Formalisation de la procédure de détermination..............220 7.2.2 Limites de l'approche inductive................................221 7.2.2.1 Apprentissage automatique = perte d'information221 7.2.2.2 Gestion de l'inconnu en phase de consultation....221 7.2.2.3 Rigidité de la consultation interactive...............222 7.3 Le raisonnement par cas....................................................223 7.3.1 Généralités........................................................223 7.3.2 Notre procédure de raisonnement par cas : CaseWork......225 7.3.3 Formalisation.....................................................227 7.3.4 Comparaison des deux approches .............................228 CONCLUSION ........................................................................231 8.1 Résultats......................................................................231 8.2 Limites actuelles.............................................................234 8.3 Perspectives..................................................................236 R E F E R E N C E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 LISTE DES FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 I L'induction en mathématiques*......................................................255 II L'expert, son “raisonnement”*......................................................261 III Répartition des descriptions de Hyalonema par Sous-Genre................... 263 IV Architecture d’HyperQuest...........................................................265 IV-1 Les piles d'HyperQuest...................................................265 IV-1.1 Le dossier Source ..............................................266 IV-1.2 Le dossier de l'application du domaine......................268 V Syntaxe BNF* pour le LCRC........................................................271 V-1 Notes sur les grammaires BNF ...........................................271 V-2 Les définitions LCRC du modèle descriptif .............................272 V-2.1 Syntaxe des objets...............................................272 V-2.2 Syntaxe des attributs............................................272 V-2.3 Syntaxe des valeurs.............................................273 V-3 Les descriptions LCRC du questionnaire................................273 V-3.1 Syntaxe des cas..................................................273 VI Induction and Reasoning from Cases...............................................275 INTRODUCTION Il paraîtra très paradoxal d'accorder une grande importance à l'observation dans cette partie des sciences mathématiques qu'on appelle généralement les mathématiques pures, puisqu'on estime couramment que l'observation concerne seulement les objets qui impressionnent les sens. Puisque nous devons rattacher les nombres à l'intellect pur, nous avons peine à comprendre comment des observations et des quasi-expériences peuvent être de quelque utilité dans l'étude de leur nature. Et pourtant, en fait, comme je le montrerai ici par des arguments très sûrs, les propriétés des nombres, connues aujourd'hui, ont été découvertes principalement par l'observation et elles l'ont été bien longtemps avant d'être confirmées par des démonstrations rigoureuses. Nombreuses sont même les propriétés des nombres qui nous sont familières mais que nous ne sommes pas encore capables de prouver; seule l'observation nous a conduit à les connaître. Ainsi voyons-nous que dans la théorie des nombres, théorie encore très imparfaite, nous pouvons fonder sur l'observation les espoirs les plus grands; elle nous conduira à de nouvelles propriétés que nous entreprendrons de prouver par la suite. Cette sorte de connaissance qui s'appuie seulement sur l'observation et dont la validité n'est pas encore confirmée, doit être soigneusement distinguée de la vérité; on dit habituellement qu'on l'atteint par induction. Néanmoins nous avons rencontré des cas où la simple induction conduisait à l'erreur. Aussi devons nous avoir grand soin de ne pas accepter comme vraies des propriétés des nombres que nous avons découvertes par observation et qui s'appuient sur l'induction seule. Nous devons voir là l'occasion d'étudier de façon plus précise les propriétés découvertes, de les prouver ou de les réfuter; dans les deux cas nous apprendrons certainement quelque chose d'utile. Euler 1 (1707-1783) 1 Euler, Opera Omnia, 1 ère série, vol. 2, p. 459, Specimen de usu observationum in mathesi pura. 2 Chapitre 0 Cette citation exprime très clairement la démarche d'expertise d'un domaine, que ce soient les mathématiques, la biologie, ou un autre domaine. Le sujet de cette thèse est : “Amélioration de la robustesse des systèmes d’aide à la description, à la classification et à la détermination des objets biologiques”. En tant que biologiste et informaticien de formation, et étant arrivé au terme de cette thèse, je suis très sensible à ces écrits d'un mathématicien du XVIIIème siècle certainement influencé par les recherches fructueuses des systématiciens de l'époque. Ces idées ont été reprises par G. Pólya dans son livre “Les mathématiques et le raisonnement plausible” (1957) dont je joins en annexe le premier chapitre sur l'induction et l'analogie en mathématiques. En découvrant ces écrits, je suis heureux de constater que les naturalistes et certains mathématiciens adoptent finalement la même approche pour tirer le meilleur parti possible de leurs expériences : leur démarche commune semble basée sur l'observation intime des faits et un raisonnement “plausible” de type inductif et analogique. L'expert (mathématicien ou biologiste) qui explore son domaine bâtit des hypothèses (ou conjectures) à partir d'interprétations de ses observations qui indiquent les relations familières qu'il voit entre les différents objets. Aux nombres des mathématiciens correspondent les spécimens dans une collection pour le biologiste systématicien. En écrivant ces relations, il aboutit à des formes de description plus ou moins bien établies qui lui permettent de comprendre son domaine. Il peut utiliser pour cela des manières différentes de représenter ses observations : descriptions monographiques, dessins, photos, ces dernières étant certainement les plus délicates pour véhiculer son expertise. Sans relâche, il confronte ses descriptions à la réalité des nouveaux individus pour mieux les connaître. En développant sa familiarité avec les spécimens, c'est un peu comme si l'expert utilisait les mots de sa propre langue et était capable de «lire les spécimens» (comme le mathématicien «lit les nombres») dans une meilleure compréhension de leur structure [Aubé, 1991], ainsi que dans la résolution de problèmes tels que la classification et la détermination en biologie. Aujourd'hui, avec l'omniprésence des ordinateurs dans les laboratoires de recherche, il devient opportun que l'informaticien coopère avec l'expert dans sa démarche de familiarisation avec les objets de son travail journalier, en lui procurant des outils d'aide : 1) à la modélisation de son savoir (pour structurer ses connaissances), 2) à la mise au point de descriptions d'objets comparables entre elles, (permettant de systématiser un processus de description suivant une même structure descriptive), Introduction 3 3) au traitement de ces descriptions (pour élaborer un savoir compréhensif ou en tirer des hypothèses ou des règles de décision valides). Tous ces outils n'ont qu'un seul but pour l'expert : valoriser son expérience et mettre à l’épreuve ses opinions. La méthode d'apprentissage exposée dans cette thèse est une première réponse à cet objectif d'un point de vue de la classification en biologie (qui est une démarche inductive comme expliqué au chapitre 3). L'autre aspect de cette aide est de permettre une meilleure transmission du savoir de l'expert à d'autres personnes du domaine moins qualifiées que lui (ou encore de manière plus ambitieuse au grand public). Le modèle descriptif et les descriptions sont les deux parties obligatoires et prioritaires du savoir à transmettre, les règles n'étant pas nécessaires. En effet, l'utilisateur du “système expert” doit être avant tout capable de suivre le schéma mental de l'expert au travers d'un guide du “savoir observer” (calqué sur son modèle) afin de proposer une description qualitativement équivalente à celle de l'expert. Celle-ci, comparée aux descriptions de l'expert, conditionne la justesse des résultats du système expert à un problème de détermination d'une nouvelle observation. La biologie est un domaine où foisonnent les faits particuliers difficilement exprimables par des règles générales. C'est pourquoi un naturaliste expérimenté n'accepte pas facilement une hypothèse. Contrairement aux mathématiques, les objets d'observation en biologie ne sont pas issus de notre intelligence mais nous sont donnés par la nature sans qu'on les ait choisis. Ils sont des spécimens ou individus très divers, ce qui nécessite de la part de l'expert de nombreuses vérifications de ses hypothèses, qui se traduisent par des adaptations successives de la classification des spécimens. Mais les clés de détermination ou les règles qui en résultent ne peuvent en aucun cas constituer des preuves à démontrer au sens des mathématiques : la variabilité naturelle est trop importante et une exception est si vite trouvée que l'on est obligé de tolérer une certaine latitude dans les classifications naturelles. Alors, que peut bien signifier la robustesse des systèmes de classification et de détermination, si nous ne sommes pas capables d'apporter la preuve que les règles apprises sont sûres et authentiques ? (autrement dit, le savoir peut-il progresser en l'absence de certitudes ?). Parmi les quelques réponses que l'on va développer dans le cadre de cette thèse, il est clair en premier lieu que la biologie n'est pas un domaine sujet aux démonstrations, du fait de la multitude des exceptions aux règles induites pour certaines classes, exceptions qui ne sont pas nécessairement connues au moment de leur élaboration. Il suffit de penser aux nouvelles maladies apparaissant chaque année en pathologie végétale ou animale et qui ont des symptômes très 4 Chapitre 0 similaires à ceux de certaines autres maladies déjà répertoriées (variabilité interclasse faible). De même, la variabilité intra-classe (intra-spécifique ou à l'intérieur d'un même groupe biologique) pouvant être très importante, l'approche que nous trouvons raisonnable consiste à fournir toutes les descriptions possibles de spécimens permettant de couvrir la classe et de les identifier en leur adjoignant l'étiquette du nom de la classe à laquelle chacun de ces spécimens appartient. Le nombre de descriptions est proportionnel à la capacité de l'expert d'appréhender la diversité d'une classe plus ou moins finement. Les descriptions sont en effet le reflet de son expérience à un moment donné. Nous pensons qu'il est préférable de multiplier les descriptions dans chaque classe, car il sera plus simple par la suite de changer le nom de l'étiquette de la classe plutôt que de modifier la description elle-même sans perte d'information. Il convient aussi d'éviter au maximum les descriptions trop généralisantes (les regroupements de descriptions) lors de la constitution d'une base de cas conforme à la couverture réelle de la classe, et de déléguer la tâche de généralisation aux outils d'induction. Inversement, les descriptions biologiques devraient recueillir le maximum d'information significative (c'est-à-dire avec une précision suffisante) dans le but de les classifier et les déterminer dans les détails. Idéalement, les descriptions portent sur une collection d'individus physiquement répertoriés et accessibles à de nouvelles interprétations, ce qui donne la possibilité aux descriptions de rester toujours conformes à la réalité des individus. Notre objectif à terme est de fournir des outils d'aide à la classification et à la détermination de spécimens du présent et à venir, guidés en cela par le travail quotidien des systématiciens sur des échantillons biologiques. Ces premières conclusions sont issues de notre démarche de terrain, c'est-à-dire que nous avons été confrontés à des données d’observation réelles et complexes sur différents sujets (diagnostic ou détermination de maladies en pathologie végétale à l’INRA2, classification de spécimens au MNHN3), et à des acteurs variés qui n’ont pas la même manière d’observer et de décrire. Avant d’en arriver à proposer des outils informatiques, il a fallu aller “au charbon” pendant deux années pour expérimenter différentes solutions auprès des utilisateurs : systèmes experts de diagnostic, questionnaires papiers, informatisés ensuite pour la saisie des descriptions sur minitel ou micro-ordinateur. Le chapitre 1 de cette thèse met en avant la démarche d’observation de l’utilisation des différentes solutions qui est la seule manière permettant de connaître réellement le problème posé. Nous allons montrer à chaque étape l’évolution de notre cheminement conceptuel qui a justifié la proposition du sujet sur la robustesse des systèmes dans l'aide à la description, la classification et la détermination d'objets biologiques. Il met en 2 3 Institut National de la Recherche Agronomique. Muséum National d'Histoire Naturelle. Introduction 5 valeur la demande et les besoins des utilisateurs pour des outils d’aide à l’acquisition des connaissances. Alors que les recherches en informatique se sont surtout axées sur la robustesse statistique des deux aspects du traitement (classification et détermination), peu de travaux ont été réalisés sur la robustesse des descriptions elles mêmes en amont du traitement. Et pourtant, les bonnes descriptions conditionnent la pertinence des règles apprises. Nous souhaitons dans cette thèse rétablir l’équilibre en faveur de l’acquisition de bonnes descriptions à apprendre, ce qui correspond de plus à une aspiration essentielle de la part des systématiciens. L’acquisition des connaissances passe donc par des descriptions robustes avant d’appliquer des méthodes de traitement adaptées pour la classification et la détermination. Pour notre domaine d'expérimentation en biologie, nous avons choisi de bien dissocier le terme de détermination de celui de classification dont les significations seront précisées au chapitre 3. Ici, la détermination concerne un individu dont on cherche le nom de sa classe d’appartenance ce que certains appellent une identification4 (voir § 3.4). La classification concerne plutôt un concept dont on cherche à expliciter les caractères distinctifs à l'aide à la fois des descriptions des individus qui appartiennent au concept et des descriptions des individus qui, au contraire, n'y appartiennent pas. Dans ce sens, la classification est le processus qui permet de déterminer un concept, c'est-à-dire d'expliciter les caractères compréhensifs du concept [Petit-Robert]. La détermination possède donc un double sens en fonction de l'objet sur lequel il porte (concept ou individu). Nous emploierons la détermination dans le sens de détermination d'un individu et la classification dans le sens de détermination d'un concept. Dans ce contexte, la robustesse n’est pas statistique mais plutôt empirique, c'est-à-dire liée aux objectifs (description, classification et détermination) et aux conditions d’utilisation des outils (nature des utilisateurs et contexte des données). Nous développerons cette notion de robustesse dans le chapitre 2 du point de vue théorique et pratique et nous confronterons notre vision avec celle des différents utilisateurs. Définition : la robustesse des systèmes d'aide à la description, à la classification et à la détermination en biologie est l’ensemble des facteurs qualitatifs qui améliore l’acquisition et le traitement des connaissances sur le domaine (compréhension, précision, cohérence, exhaustivité, redondance, fiabilité, facilité de mise à jour, ergonomie, tolérance aux bruits). Elle donne la possibilité de : 1) valoriser le travail de l’expert (l'aider à mieux maîtriser son domaine), 2) transmettre et utiliser ses connaissances, 4 Au sens anglo-saxon du terme. 6 Chapitre 0 3) mieux comprendre les systèmes naturels. La robustesse empirique s’appuie sur l’observation familière du travail quotidien de l’expert qui décrit des spécimens ainsi que sur la prise en compte des interprétations de ses observations et de son vocabulaire (désambiguation) par les autres utilisateurs de son système. Le concept de robustesse n’est jamais acquis définitivement dans les domaines biologiques, il s’adapte et s’améliore progressivement en ayant la connaissance plus intime du problème posé : il est le fruit de l’observation du terrain. Ainsi, pour améliorer la robustesse générale, nous avons mis au point une méthode d'acquisition de connaissances descriptives dont nous évaluerons l’adéquation à la démarche des naturalistes. En quelques mots, la méthode procède ainsi : 1) observation de la diversité des spécimens et modélisation de l'observable dans un modèle descriptif, 2) construction d’un questionnaire issu du modèle descriptif et description de l’observé dans une base de cas, 3) induction de règles à partir de la base, détermination de nouveaux faits, 4) validation de l'observé (les cas), validation de l'observable (le modèle), 5) itération. De plus, nous avons étudié un autre aspect de la robustesse au niveau de la consultation, celui de déterminer un spécimen face aux non-réponses (ou réponses «inconnu») de l’utilisateur. Des outils ont été implantés pour répondre à ces différentes faiblesses (voir plus loin). Pour acquérir la robustesse escomptée, l'informaticien doit être en mesure de comprendre le domaine étudié et d'apprécier les différences conceptuelles inévitables au niveau du vocabulaire employé par les biologistes. Le chapitre 3 est ainsi une sorte de glossaire où nous confrontons les différentes acceptions de certains mots clés tels que la classification, l’identification, le concept, l’objet, l’individu, etc.. La clé de voûte de notre étude est le concept de “description” : les deux communautés de chercheurs (en biologie et en informatique) doivent se mettre d'accord sur ce qu'il représente d'un point de vue quantitatif (nombre de descriptions) et qualitatif (niveau des descriptions (espèces ou spécimens), valeur des descriptions) afin que l’informaticien puisse proposer une offre adaptée à la sémantique du domaine. Une description est par exemple considérée comme réelle lorsqu’elle concerne un seul spécimen et virtuelle lorsqu’elle “synthétise” les descriptions de plusieurs spécimens ou d'une population considérée comme homogène. Introduction 7 La difficulté est qu’il a fallu travailler à partir de l’existant dans un univers non paramétrique : les données disponibles sont riches, complexes, hétérogènes en qualité et en quantité. Outre leur caractère réel ou virtuel, nous sommes confrontés à des descriptions morphologiques de spécimens “sur la table”, ou extraites des livres anciens, ces descriptions étant parfois incomplètes. L'incomplétude des descriptions résulte soit : 1) de l'état de l'échantillon récolté, 2) d'opinions préconçues du biologiste qui n'a pas jugé opportun d'apporter une plus grande précision à certaines de ses observations, 3) du fait de nouveaux critères inaccessibles aux moyens techniques d'une époque déterminée (critères microscopiques, biochimiques, génétiques, etc.). Après discussion avec les systématiciens, nous montrons ce que devrait être une “bonne” description de spécimen(s) dans le chapitre 4. Une bonne description s'appuie sur trois facultés à bien distinguer : ◊ Un savoir observer, ce qui implique de la part de l’expert de modéliser l’observable sous la forme d’un modèle descriptif structuré, ◊ Un savoir décrire afin d’acquérir l’observé sous forme de descriptions de qualité, à l’aide d’un questionnaire bâti selon l’architecture du modèle descriptif, ◊ Un savoir raisonner, afin de traiter les connaissances (l’observable et l’observé) selon un certain but : le raisonnement inductif pour obtenir une classification (modélisation de l’observé), le raisonnement déductif et/ou analogique pour obtenir une détermination. Ces trois savoir-faire sont la clé de voûte de la méthode mise au point au chapitre 2. Modéliser l’observable est la phase la plus critique pour l’obtention des descriptions observées : nous illustrons ce constat à l’aide de notre application sur les éponges marines. Cette analyse faite, nous exposons le formalisme mathématique retenu pour décrire les objets biologiques observés. Cet effort d'abstraction est nécessaire à la compréhension du domaine pour les informaticiens qui peuvent ensuite développer des méthodes et algorithmes efficaces tenant compte de la sémantique du domaine. Le formalisme retenu est décrit au chapitre 5. Il est emprunté à Diday (1987) et a été adapté pour traiter nos descriptions complexes sous forme d’objets de synthèse booléens. Il met en valeur la nature composite (dépendante), plus ou moins précise (spécialisable) et itérative (multiinstanciable) des objets dans les descriptions naturelles. Nous n’utilisons pas les 8 Chapitre 0 objets modaux du fait que nous décrivons plutôt des spécimens que des espèces et que les experts préfèrent fonder leurs décisions sur des valeurs descriptives tranchées (ils n’ont pas d’état d’âme pour juger des spécimens !). Les “bonnes” descriptions de spécimens sont déjà un premier objectif à résoudre pour constituer un système robuste. Il s’agit de représenter et de stocker dans des fichiers informatiques les “images” les plus fidèles possibles des individus étudiés. Ces données descriptives sont instanciées à partir du questionnaire et du modèle descriptif et peuvent alors être transmises telles quelles ou bien traitées par des algorithmes pour exploiter le savoir qu’elles véhiculent. Pour que la méthode exposée plus haut apporte la robustesse escomptée, il faut tenir compte de la qualité des acteurs (spécimen(s), expert(s), utilisateur(s), outils d'acquisition de connaissances, algorithmes d'apprentissage) pouvant intervenir aux différentes étapes de la chaîne, de manière à augmenter la qualité des descriptions et des règles apprises. En outre, contrairement au naturaliste amateur qui cherche à justifier son modèle par des exemples conformes, l'expert ne dédaigne pas la recherche de contre-exemples pour invalider ses hypothèses. Cette démarche scientifique de remise en cause systématique du modèle descriptif et des règles apprises permet à l'expert d'avancer dans sa recherche de règles plus vraisemblables qui éliminent les contre-exemples (le perfectionnisme du chercheur !). Elle implique néanmoins que l'informaticien lui fournisse des outils d'aide à la mise à jour de ses connaissances, notamment pour assurer la cohérence des anciennes descriptions (certains caractères ne sont plus valides dans le nouveau modèle) ou leur complétude (quand de nouveaux descripteurs sont apparus dans le modèle). Dans cette thèse, nous avons réalisé une grande partie de ces outils permettant de constituer une chaîne complète depuis la modélisation jusqu'au traitement des connaissances descriptives. En amont de la phase de traitement, nous avons implanté les deux premiers aspects de la méthode (acquérir l’observable dans un modèle descriptif, acquérir l’observé dans un questionnaire) avec un outil baptisé HyperQuest, que nous présentons au chapitre 6. L’originalité réside dans le choix de l’approche hypertexte qui permet de respecter une étroite correspondance entre les objets conceptuels décrits au chapitre 5 (objet de synthèse, assertion composite, horde composite, objet classifié, objet muni de méthodes ou de propriétés) et les entités hypertextes (pile, fond, carte, bouton, champs). Cela permet de s’affranchir d’une application particulière et d’atteindre un niveau de généricité inter-applications, de manière à construire automatiquement un questionnaire à partir de la connaissance du modèle descriptif. Ce questionnaire peut être ensuite personnalisé et illustré par l’expert lui-même très facilement de manière à procurer à l’utilisateur les moyens de “savoir observer” et “savoir décrire”. L’ergonomie et la convivialité sont alors des paramètres importants de la robustesse du système pour acquérir des descriptions de qualité. Introduction 9 Ensuite, dans notre méthode opérationnelle, nous avons choisi deux modes de traitement des descriptions en fonction des objectifs poursuivis que nous formalisons au chapitre 7. Nous sommes partis de l’algorithme KATE [Manago, 1991] qui construit une classification à partir des connaissances structurées du modèle observable et des descriptions observées. En voulant utiliser cette classification comme une clé de détermination, on s’est aperçu que le résultat de la consultation était moins fiable face à de nouvelles observations incomplètes. Ceci est du au fait que l’on raisonne de manière déductive à partir d’un arbre de décision (une caractérisation des descriptions) dans un contexte empirique, et que les descriptions initiales ne sont plus intégralement accessibles par ce raisonnement. Nous avons donc développé un processus particulier de raisonnement analogique basé sur la comparaison de toutes les descriptions entre elles et que nous avons baptisé CaseWork. Mais au lieu de comparer les exemples entre eux en utilisant une mesure de similitude globale et polythétique5 coûteuse pour le traitement (comptage des attributs par rapport aux exemples), nous préférons comparer les attributs entre eux en reprenant la même mesure de calcul d'entropie que pour l'induction avec KATE (c'est-à-dire compter les exemples par rapport aux attributs). Cette dernière méthode est monothétique6. Elle est plus facile à justifier et à expliquer à l'utilisateur, qui peut connaître les attributs ordonnés en fonction de leur pouvoir de séparation des exemples. CaseWork produit des résultats de détermination par comparaison meilleurs que KATE en appliquant le principe du raisonnement à partir des cas, c'est-à-dire à partir de la base d'expériences passées. En effet, CaseWork tient compte de toute la base d'exemples, contrairement à la détermination déductive avec KATE qui utilise un arbre de décision extrait à partir de la base de cas. Notons que ce “savoir raisonner” n'est pas nouveau dans les systèmes de détermination en biologie. On les trouve dans la littérature sous forme de clés à accès multiple ou encore sous forme de programmes de détermination polyclaves [Pankhurst, 1991]. De même, en analyse des données, des mesures de proximité expriment par un nombre les ressemblances ou les dissemblances existant entre toutes les variables qui caractérisent les exemples pris deux à deux [Chandon & Pinson, 1981]. Ces indices sont utilisés pour des problèmes de classification ou de catégorisation (voir § 3.3.2). Inversement, le raisonnement par cas (ou encore à partir de cas) utilise la mesure de similarité en phase de détermination : c'est aussi un processus de remémoration et d'adaptation en fonction du contexte de la nouvelle observation [Lieber, 1993]. L'intérêt que nous lui portons tient à son aspect complémentaire 5 Evaluant les ressemblances et différences entre exemples sur l'ensemble des attributs (méthode d'appariement). 6 Basée sur la distribution relative des exemples par rapport aux valeurs possibles de chaque attribut pris séparément (avec élimination des exemples non conformes à la valeur choisie). 10 Chapitre 0 par rapport à l'induction. Un projet d'intégration des deux approches est en cours (entre 1992 et 1995) dans le cadre du projet INRECA7 (ESPRIT III n° 6322) dont nous joignons en annexe 5 le descriptif sous forme d'un article paru à EWCBR-93, le premier congrès sur le raisonnement par cas en Europe. Les limites et mérites respectifs des deux approches seront évalués expérimentalement sur les descriptions des éponges marines fournies lors de cette thèse, ainsi que sur d'autres applications industrielles (diagnostic de pannes) qui ne nous concernent pas directement. Mais pour l'heure en attendant ces résultats, nous affirmons que pour l'objectif de classification en biologie, l'expert peut utiliser la méthode inductive avec KATE afin de découvrir des conjectures par caractérisation des classes des exemples (sous forme d'arbre ou de règles de décision). La plausibilité de ces hypothèses peut ensuite être testée directement par l'expert en examinant les règles apprises, ou par détermination de nouveaux individus (par déduction à partir de l'arbre). Si l'objectif est uniquement la détermination d'objets (le diagnostic par exemple), il est préférable d'utiliser un outil de recherche par comparaison comme CaseWork qui tient compte de toutes les descriptions et permet d'éviter les impasses dues à la rencontre d'observations localement impossibles (échantillons incomplets, mal conservés, etc.). Dans tous les cas, une justification des erreurs de classement (voir § 3.3) peut être mise en évidence et révéler l'insuffisance de la base d'exemples (l'observé) ou du modèle descriptif (l'observable). A tout moment, l'expert doit être capable de trouver les raisons des “fautes” commises dans les descriptions. Il devra utiliser les outils de manière interactive, ce qui est une condition d'acceptabilité du service rendu par l'informatique. Les autres conditions sont liées aux moyens mis en œuvre pour acquérir ces descriptions avec l'éditeur de modèle descriptif et de cas (le questionnaire). Ils doivent être à la fois facile d'accès (souples et ergonomiques), scientifiquement rigoureux dans la démarche de description (logique de description, cohérence entre l'observable et l'observé) et permettre d'exploiter toute la richesse informative du domaine naturel (liaisons intrinsèques entre caractères, exhaustivité et précision des données descriptives). Ce n'est que par cet effort de compréhension de la complexité d'un domaine naturel que l'informaticien est un interlocuteur utile pour l'expert : il sera disposé à adapter le modèle à la réalité des connaissances et non l'inverse. 7 INduction and REasoning from CAses. I LE CHEMINEMENT CONCEPTUEL Une fois fixés les objectifs et le cadre de la démarche souhaitable, nous exposons dans ce chapitre le cheminement conceptuel qui nous a amené à choisir le thème de la robustesse des systèmes d'aide à la description, à la classification et la détermination des objets biologiques pour cette thèse. L'élaboration de notre approche est le fruit d'une démarche expérimentale bénéficiant de plusieurs expériences sur le terrain “en vraie grandeur”. Nous retraçons maintenant l'historique de celles-ci afin de faire ressortir les points importants à retenir pour justifier notre méthode d'acquisition des connaissances et mettre en valeur notre conception de la robustesse. 1.1 Les systèmes experts à l'INRA L'INRA (Institut National de la Recherche en Agronomie) a développé quinze systèmes experts spécialisés dans le diagnostic des maladies des plantes : le projet SEPV 1 [Le Renard, 1988]. Par exemple, TOM est le premier système expert en agriculture de cette série [Blancard et al., 1985]. Il détermine les maladies des tomates sur ordinateur ou Minitel à partir de la description des symptômes par les agriculteurs ou techniciens agricoles. En 1986, tous ces systèmes fabriqués par un couple “cogniticien-expert” étaient à l’état de prototypes avancés, et l’INRA a alors décidé de les tester sur le terrain afin d’évaluer leur fiabilité entre les mains des utilisateurs de la profession agricole. Étant alors en troisième année d’une école d’ingénieurs en agriculture (l’ISARA : Institut Supérieur d’Agriculture Rhône-Alpes), et attiré par les systèmes experts sans avoir la compétence informatique pour en développer, nous avons proposé un stage de longue durée à l’INRA sur le thème de l’utilisation, afin de confronter l’offre et la demande. Le but était d’analyser l’impact socioéconomique des systèmes experts dans le milieu agricole et de proposer des solutions d’adaptation de ces systèmes à leurs utilisateurs. Nous avons pu ainsi expérimenter pendant 10 mois cinq systèmes experts sur le terrain (le blé, la betterave, le pêcher, la tomate et l’œillet) et proposer une étude plus approfondie sur le système œillet [Conruyt, 1986]. Lors d’un mémoire de fin d’études de l’ISARA en 1987, dans le cadre d’un autre projet sur l’apprentissage automatique des maladies de la tomate (INSTIL § 1.2), nous avons pu mettre au point par écrit une méthode d’acquisition des connaissances descriptives en 1 Systèmes Experts en Pathologie Végétale. 12 Chapitre 1 pathologie végétale qui tient compte des différents intervenants dans la chaîne du diagnostic [Conruyt &Piaton, 1987]. Ces écrits ont rassemblé nos premières spécifications pour des travaux sur la robustesse. 1.1.1 Bien définir la cible des systèmes experts Une connaissance du terrain pour établir quelle est la chaîne du diagnostic pour chaque culture est primordiale. Cette chaîne fait intervenir trois catégories de personnes avec des niveaux de raisonnement et de souhait différents : 1.1.1.1 Les experts Ils reçoivent une grande quantité d'échantillons à chaque campagne culturale (ex : 300 cas pour la tomate en 1987), ils raisonnent principalement à partir des symptômes sur la plante. Leur vision des symptômes s'effectue à une échelle d'observation individuelle. Elle est variée et pointue, car s'appuyant sur des observations à la loupe binoculaire et au microscope. Cette vision leur fait adopter un vocabulaire très spécifique et difficile à communiquer aux autres utilisateurs. Par exemple, le concept de nécrose porte une information non explicitée liée au dessèchement des tissus atteints, à leur couleur brune et à leur limite bien distincte, ceci vu à la loupe binoculaire [Blancard, 1988]. Les experts sont intéressés par tous les outils d'aide qui leur permettent d'accélérer le diagnostic et de le rendre plus fiable, de se décharger du travail de routine (filtrage des cas “sans intérêt”). Ils recherchent aussi tout ce qui peut leur permettre d'approfondir leurs connaissances, ou d'élargir leur domaine de compétence au delà de leur propre spécialité. 1.1.1.2 Les techniciens ou conseillers agricoles Contrairement aux experts, ils sont constamment en contact avec les agriculteurs par les suivis d'exploitation, le recueil d'échantillons de plantes malades. Ils ont une meilleure connaissance de l'itinéraire technique de la culture et du contexte socio-économique de l'exploitation. Leur responsabilité vis à vis de l'exploitant est importante puisque ce sont eux qui donnent l'ordonnance (nature du produit de traitement, dose, mode d'application). Ils ont donc un mode de raisonnement plus global au niveau du problème dans la culture. Leurs souhaits portent non seulement sur l'amélioration de leurs connaissances, mais aussi sur des outils d'aide et d'orientation. Il leur importe en effet, en cas de doute, de pouvoir faire confirmer leur diagnostic par un expert, à moins de disposer eux-mêmes d'outils permettant d'affiner leurs résultats. Mais leur Le cheminement conceptuel 13 préoccupation majeure n'est pas tant l'obtention du diagnostic que son utilisation : que faut-il conseiller de faire à l'agriculteur demandeur ? 1.1.1.3 Les agriculteurs Si les techniciens raisonnent en terme de potentiel de dégât causé par la maladie, les agriculteurs la considèrent comme un préjudice non seulement à déterminer et localiser (espace et temps), mais aussi à quantifier. Comme cela a une incidence directe sur leur revenus d'exploitation, ils raisonnent encore plus globalement en terme de préjudice pour la commercialisation. De ce fait, ils sont très exigeants vis à vis du conseil en protection des cultures. Leurs demandes se situent à différents niveaux. Ils voudraient pouvoir déterminer eux-mêmes, immédiatement, les maladies les plus courantes ; quand ils doivent passer par la chaîne complète du diagnostic, ils souhaitent recevoir rapidement les résultats. Ils veulent connaître l'opportunité des interventions curatives : savoir si l'atteinte à leur culture est grave, et bénéficier d'outils d'aide aux traitements, intégrant les critères économiques et les données de leur exploitation. Enfin, ils souhaitent aussi des renseignements sur la raison de l'installation de la maladie dans la culture de manière à prendre des mesures prophylactiques ou préventives dès la prochaine campagne. 1.1.1.4 Conclusion Tous ces intervenants sont des consultants potentiels des systèmes experts de l'INRA. Il faut donc prendre en compte leur grande hétérogénéité de niveaux techniques, et la variété des utilisations qu'ils comptent faire du diagnostic. Dans SEPV, il a fallu gérer l'important écart qui existe entre les experts qui peuvent fournir l'expertise, et les nombreux techniciens et agriculteurs qui peuvent y avoir accès. Le problème de l'adaptation des niveaux, pris en charge par les cogniticiens (ces personnes construisant les bases de connaissances), s'est révélé encore plus central qu'il ne l'avait été perçu a priori. Il n'y a pas qu'un modèle d'utilisateur à prendre en compte. Concilier les exigences d'un outil de qualité professionnelle et celles d'un produit de type grand public complique considérablement un projet de conception, de développement et de validation. 1.1.2 Bien définir les objectifs et les moyens L'objectif de SEPV était de construire des systèmes experts de détermination des maladies. L'acte de diagnostic, essentiellement visuel, consiste à déduire la présence d'une maladie de l'observation de symptômes, manifestations plus ou moins caractéristiques de la maladie. Le savoir-faire de l'expert s'appuie donc sur deux capacités à reproduire : 14 Chapitre 1 1.1.2.1 Savoir observer Il faut savoir faire un tour rapide des différents symptômes, pour focaliser rapidement l'observation sur les plus “pertinents”, en faisant un tri pour ne garder que les éléments les plus caractéristiques (par exemple, ne pas tenir compte des symptômes sans signification, ou ne s'intéresser qu'au meilleur stade d'évolution, ou encore “sérier” les problèmes quand on s'aperçoit que plusieurs maladies sont présentes en même temps, etc.). La mémoire visuelle de l'expert joue un rôle essentiel, lui permettant de se rappeler “qu'il a déjà vu ça quelque part”, et de remonter à des cas analogues ou plus typiques. Il est particulièrement difficile, voire impossible, de déceler une “méthode” dans la façon de procéder de l'expert, tant il semble que chaque observation de plante soit menée différemment des autres. Le rôle de l'expérience joue en effet à fond, en particulier l'expérience à court terme (référence à des cas analogues vus il y a peu de temps : l'expert fait des comparaisons “en mémoire vive”). 1.1.2.2 Savoir raisonner En simplifiant, on pourrait dire que l'expert interprète les symptômes en termes de caractéristiques de maladie, ce qui lui permet tout à la fois de se focaliser vers un petit nombre de maladies possibles (qu'il va falloir confirmer) et de ne pas prêter attention à d'autres maladies (ce qui revient à les éliminer de façon implicite). C'est cette démarche complexe d'élimination et de confirmation d'hypothèses, souvent entrecoupée de remises en cause et de retours en arrière, qui permet de parvenir à un diagnostic. Dans les cas où aucun élément suffisamment discriminant n'a pu être relevé, il est nécessaire de recourir à des moyens complémentaires (mise en culture par exemple), pour pouvoir préciser le résultat. Car le résultat du diagnostic n'est pas toujours unique et certain, et il se trouve de fait souvent accompagné d'un commentaire en cas de doute. Cette manière de diagnostiquer, issue presque entièrement de l'expérience, correspond à un savoir-faire et pas du tout à la connaissance telle qu'on peut la trouver formalisée dans les ouvrages spécialisés. Nous sommes dans un domaine qui se laisse difficilement ramener à un ensemble de “lois”, où l'incertain et l'approximatif s'insinuent partout. Le cheminement conceptuel 15 1.1.2.3 Conclusion Il sera important qu’un système de détermination souhaitant reproduire le savoir-faire de l’expert tienne compte de l’application de ces deux capacités : savoir observer et savoir raisonner. Plus tard, grâce aux techniques d’apprentissage, nous apprendrons qu’une troisième qualité intermédiaire entre l’observation et le raisonnement est primordiale : c’est la capacité à décrire les observations. Les descriptions permettent la liaison entre l’observation et le raisonnement. Elles s’appuient sur l’élaboration d’un questionnaire tenant compte à la fois d’un modèle d’observation de l’expert (modèle descriptif de l’observable indiquant quoi observer) et du niveau de perception de ces connaissances par les utilisateurs (adaptation au vocabulaire et à la manière d’observer des utilisateurs). En effet, on avait tendance à oublier qu’un système expert était fait pour être diffusé auprès d’autres utilisateurs que les experts. 1.2 Le projet INSTIL A coté de la méthode de constitution d'un système expert par transmission de la connaissance, qui est celle qui a été suivie dans SEPV en mettant en place la chaîne “expert(s) - cogniticien - système expert - utilisateurs”, nous avons expérimenté une autre méthode visant à améliorer le processus d'acquisition des connaissances. Le problème des systèmes experts construits selon la technique classique est qu'ils nécessitent beaucoup de connaissances descriptives : les règles doivent être maintenues continuellement avec l'apparition de nouvelles maladies et de nouveaux symptômes. INSTIL signifie “Integrating Numeric and Symbolic Techniques In Learning”. Le but de ce projet européen entre 1986 et 1989 (ESPRIT I n° 1063) a été de construire “automatiquement” un système expert de diagnostic des maladies de la tomate à l'aide de techniques d'apprentissage numériques et symboliques. L'idée était de comparer l'approche classique d'élicitation des connaissances avec celle d'extraction automatique de règles à partir d'exemples. Chaque exemple est constitué de la description d'une plante malade et du diagnostic correspondant de la part de l'expert. Du point de vue mathématique, un exemple est un couple (d(w), c) ou w est un individu observé (la plante malade par exemple), d(w) est sa description associée, et c est le nom de la classe auquel l’individu appartient (le diagnostic correspondant). La description peut être formalisée de différentes manières selon la complexité de l’individu à décrire (voir chapitre 4). Les algorithmes d'apprentissage étaient utilisés pour aider à la classification des maladies par méthode inductive (les caractériser par un arbre ou des règles de 16 Chapitre 1 décision), puis à la détermination de nouvelles observations2 (par méthode déductive). Ces algorithmes sont les suivants : 1.2.1 Neddie Neddie est un descendant d'ID3 [Quinlan, 1983]. A partir d'exemples de plusieurs concepts, il fabrique un arbre de décision qui sépare les concepts de manière efficace. En termes de stratégies de recherche, Neddie effectue une recherche en gradient (“divide and conquer”, pas de retour en arrière) du plus général au plus spécifique en utilisant un critère d'évaluation numérique appelé gain d'information qui est fondée sur la mesure d'entropie de Shannon (1949). Neddie possède les fonctionnalités permettant de transformer un arbre de décision en règles [Corlett, 1983] ou encore l'arrêt de la construction de l'arbre avant son terme en utilisant le test du χ 2 quand toutes les variables candidates à un nœud (les attributs3 explicatifs) sont indépendantes de la variable décision (la maladie à expliquer). Néanmoins au départ, Neddie était limité dans son mode de représentation des connaissances et n'utilisait pas de théorie initiale du domaine : chaque exemple était décrit dans une ligne d'un tableau de données (représentation plane ou “attribut-valeur”) sans possibilité d'introduire de logique d'ordre 1 (avec variables) dans une description. En outre, cette connaissance “àplat” ne permet pas de prendre en compte les connaissances de bon sens entre les différents composants d'une description et issues d'une modélisation initiale du domaine [Manago & Conruyt, 1989]. Nous verrons avec KATE (§ 1.4) que ces possibilités sont impératives pour exploiter la richesse des domaines vivants que nous voulons traiter. 1.2.2 Main Main est une implantation partielle de l'algorithme de l'étoile AQ [Michalski et al., 1981] version 11 [Michalski, 1983]. Prenant des exemples positifs et négatifs d'un concept (les exemples négatifs 4 sont ceux qui n'appartiennent pas au concept), il génère un ensemble de descriptions conjonctives qui couvrent tous les exemples positifs et un nombre prédéfini par l'utilisateur d'exemples négatifs CE [Manago, 1988]. L'algorithme commence par sélectionner au hasard un exemple e1 (le noyau) dans l'ensemble des exemples positifs. La liste des attributs de l'exemple est ensuite généralisée à l'aide de règles de généralisation (règle de l'oubli, règle 2 L’observation est définie mathématiquement par le couple (d(w), Ø) du fait que le nom de la classe n’est pas connu et reste à déterminer. 3 Dans cette thèse, la sémantique choisie pour le mot “attribut” est celle du domaine de l’intelligence artificielle ou de l’analyse des données, c’est à dire la “variable” (ex : couleur, forme, taille, etc.) et non pas dans le sens de “ce qui est attribué à un individu” que nous appelerons la “valeur”. 4 Ou contre-exemples du concept. Le cheminement conceptuel 17 d'élargissement des valeurs possibles, etc.) et en tenant compte d'heuristiques pour contrôler la recherche multi-directionnelle. G(e1, CE) est appelé l'étoile de e 1 et représente l'ensemble de toutes les descriptions les plus générales qui couvrent le noyau (complétude) et ne couvrent pas les exemples négatifs (cohérence). Comme cela représente un nombre trop élevé de descriptions dans la pratique, l'algorithme effectue une recherche en faisceau pendant la génération de l'étoile pour produire une étoile bornée G(e1, CE/m) ne contenant que les m meilleures descriptions selon certains critères et seuils de tolérance fixés au départ. Les exemples positifs qui ne sont pas couverts par l'étoile sont éliminés et le processus de départ est répété jusqu'à ce que tous les exemples soient couverts. Contrairement à Neddie, Main utilise une stratégie hybride (en faisceau) ascendante guidée par les données (lors du choix d'un exemple) et descendante guidée par un modèle (lors de la génération de l'étoile bornée). C'est un système à la fois numérique et symbolique qui exploite une représentation plus ou moins orientée objets : VL2 (Variable-Valued Logic) comme sous-ensemble de la logique du premier ordre [Michalski, 1980]. Main ne savait pas traiter les attributs à valeur numérique. 1.2.3 Maggy Maggy est une implantation de l'algorithme d'appariement structurel et un descendant du système Agape [Kodratoff & Ganascia, 1986]. Il prend un ensemble d'exemples positifs et produit les généralisations conjonctives les plus spécifiques [Michalski, 1983]. Maggy utilise une représentation des connaissances fondée sur les frames permettant de décrire les observations (les observés) sous forme d’objets structurés ainsi que d’autres connaissances initiales de bon sens sur le domaine (hiérarchies d’objets, propriétés déductives, etc.) constituant le modèle descriptif (l'observable). Maggy peut être utilisé pour trouver toutes les généralisations conjonctives possibles d’un ensemble d’exemples (étant donné un modèle descriptif) ou sélectionner une généralisation fondée sur la quantité d'information perdue pendant la procédure. Considérons l’exemple suivant : E1 : [objet1 <classe pourriture> <couleur blanc>] & [objet2 <classe tache> <couleur brun>] E2: [objet1 <classe pourriture> <couleur jaune>] & [objet2 <classe tache> <couleur blanc>] En faisant l’hypothèse qu’il y a une taxonomie des couleurs et que les pourritures et les taches sont des sortes de symptômes, Maggy extrait la généralisation “il y a une pourriture de couleur claire et une tache” plutôt que “il y a un symptôme blanc et un autre symptôme”. Ceci provient du fait que davantage d’information est perdue en produisant la seconde généralisation [Manago, 1986]. Maggy renvoie à la fois la généralisation et une mesure de la quantité d’information perdue pendant le processus de généralisation. 18 Chapitre 1 Maggy fonctionne en logique du premier ordre et utilise une stratégie de recherche du meilleur d'abord guidée par les données : il combine la recherche en gradient et en profondeur d'abord (tous les chemins sont explorés, mais les plus prometteurs le sont en premier). C'est un système symbolique. 1.2.4 Conclusion Comme le montrent ces différents algorithmes, le projet INSTIL visait à réunir différents modes de raisonnements par inférence (induction, déduction), des stratégies de recherche multiples (recherches ascendante, descendante, en profondeur, en largeur d'abord), des méthodes d'induction différentes (numériques, symboliques) et des modes de représentation divers (logique des propositions, prédicats). Dans ce projet, notre rôle a été double : D’une part, nous avons pu fournir les exemples en amont de la phase de traitement par ces algorithmes ; grâce à la connaissance des utilisateurs finaux, nous avons pu ainsi proposer dans le cadre d’un mémoire de fin d’étude ISARA [Conruyt & Piaton, 1987] une méthode d’acquisition des exemples à l’aide d’un questionnaire interactif adaptée au domaine de la pathologie végétale. C’est cette méthode qui a servi de base à la construction du projet de thèse afin de réaliser pratiquement les outils permettant d’acquérir les connaissances initiales aux traitements. Ainsi, l’expérience de deux années d’utilisateur des systèmes experts sur le terrain a permis de comprendre la difficulté du “savoir observer et décrire” des différents intervenants dans la chaîne du diagnostic et de passer d’une proposition sur papier à une réalisation informatique concrète. D’autre part, il nous restait à comprendre les mécanismes de raisonnement des logiciels d’apprentissage automatique (induction, déduction) pour les comparer au “savoir raisonner” de l’expert, ceci afin de concevoir un système de détermination globalement plus fiable. Comprendre le traitement des exemples a été donc l’objectif poursuivi pour pouvoir établir des comparaisons entre les différents programmes à la lumière de la qualité des descriptions fournies. N’ayant pas au départ les connaissances informatiques suffisantes, les différents algorithmes ont été regardés comme autant de boites noires et nous avons analysé les résultats en sortie par rapport aux données en entrée. Nous avons ainsi pu constater une nouvelle fois l’importance de la qualité des descriptions en entrée, ce qui justifiait de consacrer nos efforts futurs sur cet aspect de l’acquisition des connaissances. Le cheminement conceptuel 19 1.3 Des systèmes experts à l'apprentissage Dans ce paragraphe, nous allons évoquer quelles sont les relations entretenues entre les deux approches que nous avons expérimentées, c'est-à-dire celle à l'INRA avec les systèmes experts dits “de première génération” et celle en apprentissage numérique symbolique dans le cadre d'ESPRIT (projet INSTIL). Nous résumons d'abord les avantages et inconvénients des systèmes à base de connaissances par rapport aux programmes informatiques classiques (§ 1.3.1). Cette première comparaison est plutôt théorique. Elle est suivie d’un bref exposé (§ 1.3.2) sur les tentatives des chercheurs en informatique pour faire face au problème de l’acquisition des connaissances soulevé par l’emploi des règles de déduction dans les systèmes experts de première génération. Les systèmes experts de seconde génération mettent l’accent sur l’acquisition des connaissances de l’expert par le cogniticien du point de vue de la simulation de son raisonnement à l’aide de modèles. Or, la modélisation du raisonnement demande d’abord la compréhension des concepts sur lesquels on raisonne. En privilégiant plutôt les descriptions que les règles de détermination, nous allons montrer que l’apprentissage inductif à partir d’exemples est mieux adapté à la logique de fonctionnement de l’expert. Du point de vue pratique, nous n’oublions pas cependant qu’un système expert, même s’il est construit par apprentissage inductif, est utilisé par d’autres personnes que l’expert. L’adaptation des connaissances à l’utilisateur final a fait l’objet de recherches pendant deux années d’utilisation des systèmes experts sur le terrain. Nous en donnerons un aperçu au § 1.3.3. Enfin, en comparant les résultats d’INSTIL et ceux de SEPV au § 1.3.4, nous verrons que la qualité des descriptions à traiter par apprentissage est primordiale, ce qui nécessite la conception d’un modèle descriptif correctement défini. 1.3.1 Les systèmes experts Les systèmes experts ou encore systèmes à base de connaissances sont des programmes informatiques qui ont pour but de reproduire le raisonnement d'un expert humain dans un domaine bien précis, afin de résoudre un problème donné de manière aussi performante. Du point de vue de la méthode, alors que dans les systèmes informatiques traditionnels le programme récolte toute l'information sous forme procédurale, dans les systèmes experts l'information spécifique au domaine est déclarée dans une base de connaissances heuristiques (les règles de raisonnement) et sont séparées de leur mécanisme d'interprétation (le moteur d'inférences). Pour une explication de l'anatomie des systèmes experts de première génération, le lecteur pourra se reporter à [Laurière, 1982], [Cordier, 1984] ou [Bonnet, 1984]. 20 Chapitre 1 La façon classique permettant d'acquérir toutes ces connaissances est celle qui utilise le cogniticien, spécialiste du recueil, de la représentation et de l'implantation sur ordinateur des connaissances expertes. La transmission (l'élicitation) des connaissances nécessite une méthodologie bien définie : 1) prendre un expert reconnu, motivé et disponible, 2) se familiariser avec le vocabulaire du domaine, 3) déterminer par interview les modalités du raisonnement de l'expert, 4) écrire la base de connaissances, 5) faire valider la base par l'expert, puis d'autres experts, 6) faire valider dans le milieu cible. Les avantages de cette démarche sont bien connus : ◊ les règles énoncées donnent une meilleure accessibilité au non informaticien, ◊ les facultés explicatives et justificatives sont directement reliées aux informations que l'utilisateur a lui-même rentrées, ◊ L'expert, aidé ou non du cogniticien, peut lui-même corriger et mettre à jour les connaissances introduites, etc.. Néanmoins, malgré des réussites remarquables telles que MYCIN en médecine (maladies infectieuses) [Shortliffe, 1976], DENDRAL en chimie (structures moléculaires) [Buchanan & Feigenbaum, 1978], ou encore PROSPECTOR en géologie (prospection minière) [Duda et al., 1979], il faut bien reconnaître que la mise au point d'une base de connaissances (le recueil d'expertise) reste très délicate : ◊ l'expérience de l'expert s'est forgée à son insu, elle ne s'explicite pas facilement hors contexte, ◊ le formalisme des règles ... alors ... n'est pas toujours adapté à son raisonnement, ainsi qu'au traitement des exceptions (multiplication des prémisses), ou encore aux capacités d'explication (la trace des règles ne suffit pas), ◊ la modification d'une grosse base de règles est difficile à gérer (maintien de la cohérence), et coûteuse (faisant intervenir le cogniticien), ◊ les performances se dégradent au moindre oubli et cela donne une image néfaste des compétences du système expert à ses utilisateurs, ◊ il n'existe pas de méthodologie prédéfinie d'extraction des connaissances, etc.. Toute la question est de savoir comment faire pour acquérir le raisonnement de l'expert et le modéliser sous forme de règles de production. Feigenbaum (1981) a identifié cette tâche d'élicitation comme le “goulet d'étranglement” de Le cheminement conceptuel 21 l'acquisition des connaissances pour construire des opérationnels. systèmes experts 1.3.2 Acquérir les connaissances de l'expert Un système expert n'est valable que s'il contient les connaissances les plus récentes, précises, justes, complètes et détaillées des meilleurs experts, et que si une remise à jour régulière de cette connaissance est réalisée. Certains chercheurs ont essayé de mieux formaliser la nature même des connaissances du point de vue de la philosophie [Smith & Medin, 1981], de la psychologie et de la linguistique [Rosch et al., 1976], [Schank, 1982], [Kleiber, 1990], conduisant les chercheurs en IA à utiliser d'autres formes de représentation des connaissances que la forme déclarative des règles de production. Ce sont par exemple les graphes conceptuels de Sowa (1984), les descriptions à base de frames [Minsky, 1975], les scripts [Schank & Abelson, 1977], les procédures (méthodes, démons) attachés aux objets [Roberts & Goldstein, 1977], les hiérarchies d'objets et les mécanismes d'héritage [Brachman & Schmolze, 1985], [Rechenmann, 1988], les objets composites [Stefik & Bobrow, 1986], [Ducourneau, 1989]. Pour obtenir une description de ces langages de frames au sein des langages à objets, le lecteur peut se référer à Masini [Masini et al., 1989]. Ils ont été conçus pour aider les cogniticiens à modéliser une connaissance causale, c'est-à-dire reposant sur la compréhension des effets et des causes sous-jacents au fonctionnement du système expert [Giarratano & Riley, 1989]. Ainsi, il est possible de modéliser des connaissances de structure, de fonctionnement et de comportement des objets. Consécutivement, d'autres chercheurs se sont focalisés sur le processus de l'acquisition des connaissances lui-même afin de mettre au point une méthodologie de modélisation des connaissances et de développement de systèmes experts pour en faciliter la validation et la maintenance. Par exemple, pour les systèmes de diagnostic, l'approche consiste à représenter les connaissances de l'expert sur le comportement des composantes élémentaires du système à maintenir [Courtois, 1990]. Cette approche dite avec “connaissances profondes” caractérise les systèmes experts de seconde génération. La description des objets de la connaissance est réalisée par une décomposition structurelle et fonctionnelle et se formalise par l'intermédiaire de modèles physiques, comportementaux [Davis, 1984] et de fonctionnement [Milne, 1987]. Par ce moyen, le cogniticien est amené à structurer la connaissance à différents niveaux pour le problème du diagnostic tout en utilisant les acquis des langages de représentation des connaissances décrits plus haut. De ce fait, la démarche est 22 Chapitre 1 très proche de la méthodologie KADS [Wielinga et al., 1992b] de modélisation des connaissances. Dans KADS, quatre niveaux (stratégie, tâche, inférence, et domaine) sont définis pour expliciter les compétences de l'expert (son modèle d'expertise) : le niveau stratégie permet de décrire les objectifs opérationnels de son action (conception, simulation, planification, diagnostic, etc.), le niveau tâche spécifie les raisonnements nécessaires qu'il adopte pour atteindre les buts, le niveau inférence permet de choisir les structures inférentielles dans une bibliothèque pour accomplir les tâches, et le niveau domaine décrit les concepts et relations utilisés par les autres niveaux [Kirsch et al., 1993]. Par rapport aux travaux des systèmes experts de seconde génération qui se sont surtout intéressés à la modélisation des connaissances de résolution de problèmes [Clancey, 1985], [Breuker & Wielinga, 1989], [Chandrasekaran, 1987], dans KADS l'accent a été mis principalement sur la modélisation des connaissances spécifiques au domaine d'application [Wielinga et al., 1992a]. En ce qui nous concerne, nous avons pu observer la pratique de diagnostic de l’expert des maladies des tomates D. Blancard pendant la campagne de 1987. Le modèle de raisonnement de l'expert (comment il résout le problème) face à un cas concret en pathologie végétale semble passer par trois étapes successives qui lui permettent d'atteindre plus vite son diagnostic (voir annexe 2) : ◊ identification d'un contexte, ◊ recherche d'éléments menant à une présomption, ◊ utilisation de critères de confirmation. Partant de cette constatation, les chercheurs de l'INRA ont trouvé intéressant d'intégrer de telles métaconnaissances dans la base de connaissances de manière à simuler un comportement analogue à celui de l'expert en situation. Pour Delhotal (1987), chacune des étapes correspond à un “paquet de règles” ou bloc, avec ses buts intermédiaires propres, et constitue en quelque sorte un soussystème expert. Le découpage en unités fonctionnelles, outre qu'il correspond à une modélisation satisfaisante de la démarche de l'expert, présente aussi l'avantage de faciliter le travail du cogniticien, que la structuration de la base de connaissances autorise à travailler sur des “unités” de connaissances plus homogènes et plus réduites. Nous remarquons que ces étapes correspondent chacune à une tâche de diagnostic au sens de KADS. Cette remarque est aussi valable pour les générateurs de systèmes experts de seconde génération comme par exemple SMECI [Smeci, 1991]. Le cheminement conceptuel 23 Mais dans ces systèmes, on ne se cantonne pas seulement au niveau de la structuration d'une base de règles. Outre les connaissances déclaratives, SMECI intègre des connaissances factuelles représentées sous forme d'objets (catégories, prototypes) et des connaissances procédurales (démons, méthodes). Ainsi, ces systèmes experts répondent à la critique comme quoi ils sont encore trop superficiels au niveau de la représentation profonde des associations phénoménologiques qu'ils sont capable de faire [Bonnet, 1984], [Pitrat, 1987] : en effet, ils peuvent posséder un modèle d'organisation des objets du domaine et l'utiliser pour inférer des données manquantes par un raisonnement de bon sens (si type(culture) est “plein-champ”, alors chauffage(culture) est “froid” et mode(culture) est “en-terre”), ils donnent la possibilité de décomposer le problème en modules de connaissance (tâches) indépendants et de piloter la résolution de problèmes à l'aide de stratégies d'inférence variées (profondeur, largeur, meilleur d'abord). Comme nous le constatons, les systèmes experts se sont développés surtout autour de la simulation du raisonnement. Or, avant de raisonner pour résoudre un problème, il faut être capable d'acquérir les concepts sur lesquels on raisonne. Cette faculté est le propre de l'induction qui est le processus qui va inférer des règles générales (ou plutôt des hypothèses) à partir des cas particuliers. Cette raison nous a conduit à étudier l'apprentissage inductif à partir d'exemples qui permet de découvrir des connaissances déclaratives (des définitions, c'est-à-dire quelque chose de vrai ou faux) caractérisant des concepts, à partir de connaissances factuelles (des descriptions, cf. chapitre 3). Les règles induites sous la forme d'un arbre de décision sont ensuite utilisées comme pour les systèmes experts de première et seconde génération. De plus, l'apprentissage automatique a été désigné pour répondre à la constatation suivante : autant l'expert peut être compétent pour résoudre des problèmes concrets, autant il n'est pas nécessairement un bon professeur capable d'expliquer de façon logique par des règles abstraites comment il raisonne. Nous pensons qu'il est effectivement plus simple et plus naturel de laisser l'expert décrire des échantillons de différentes classes que de lui demander de fournir des définitions qui permettront de les reconnaître. Cela permet aussi de tenir compte des exceptions multiples que l'on trouve obligatoirement dans la nature et qui constituent toutes des exemples “couvrant” la même classe. De ce fait, l'expert peut adopter une démarche exploratoire pour comprendre la manière dont il a luimême pu (auparavant) apprendre son domaine : les règles en sortie peuvent être contrôlées par les données qu'il a lui-même entrées, ce qui est plus “confortable” que l'énoncé de règles abstraites. Le résultat est de toute manière identique à celui des générateurs de systèmes experts : il s'agit de construire un système à base de connaissances. 24 Chapitre 1 Du point de vue de l'expert, les concepts correspondent aux classes à reconnaître (c'est-à-dire ici les diagnostics) et pour le cogniticien il s'agit aussi des buts du système ou variables à expliquer. Ainsi, acquérir le raisonnement de l'expert consiste à saisir sa logique de fonctionnement dans la phase d'acquisition des connaissances. Mais cela ne suffit pas car l'expert et le cogniticien ne sont pas les seuls utilisateurs mis en jeu. Il faut compléter cette logique par une phase de mise en situation avec les personnes concernées par la version finale du système expert : c'est la logique d'utilisation [Richard, 1983] [Mahé & Vesoul, 1987]. Ainsi, comme nous l'avons constaté lors de campagnes de validation des systèmes experts sur le terrain, il s'avère nécessaire d'être plus général dans notre définition des concepts en biologie : l'apprentissage de concepts ne se résume pas seulement à reconnaître les buts du système (ex : maladies), mais aussi d'autres concepts aux contours mal définis tels que les types de symptômes, la nature des traitements, etc.. Par exemple, qu'est-ce qu'une tache, une anomalie de coloration, un jaunissement pour l'expert, pour l'agriculteur et le technicien ? La question de savoir comment nous arrivons à formuler nos concepts reste entière ! C'est pourquoi l'alternative de l'apprentissage à partir d'exemples nous semble plus intéressante que l'approche système expert traditionnelle parce qu'il est possible de faire intervenir l'utilisateur final avant même l'élaboration automatique des règles : nous lui demandons de fournir des descriptions d'un même échantillon qui aura été déjà décrit et identifié par l'expert. En multipliant ce procédé (cette approche a été adoptée dans INSTIL), on favorise la construction de règles plus robustes par rapport aux consultations futures du système par des utilisateurs variés : par cette méthode, la consultation n'est plus seulement le fruit d'un dialogue entre l'expert et le cogniticien mais profite de la variabilité des descriptions au niveau de leurs descripteurs (ceux qui décrivent). 1.3.3 Adaptation à l'utilisateur Bien adapter les systèmes experts à leur cible est une priorité et cela demande des épreuves de validation sur le terrain : la principale difficulté réside en effet dans les écarts d'interprétation de l'observation et du vocabulaire entre utilisateurs, ce qui peut conduire à des diagnostics incorrects [Conruyt, 1986]. Pour tous, le système expert apparaît comme un questionnaire interactif dans lequel ils sont plus ou moins guidés. Il y a beaucoup de manières de présenter le questionnaire ou l'ordre des questions à poser à l'utilisateur. Le problème fondamental est alors de confronter la logique de l'expert qui décrit avec celle des autres utilisateurs [Conruyt & Piaton, 1987]. En effet, un échantillon réel (plante malade à un stade plus ou moins évolué) n'est pas observé ni décrit de la même façon par un expert, un technicien ou un Le cheminement conceptuel 25 agriculteur. En définitive, c'est bien sûr l'expert qui donne son propre canevas de description, mais le cogniticien doit généralement l'arranger à la lumière d'une validation de terrain, pour qu'il devienne plus ergonomique et plus convivial (interface homme-machine, complexité des questions, dialogues d'explication, glossaire, etc.). Par exemple pour notre expérimentation sur le terrain, un aspect important du questionnaire était de le laisser ouvert sur les possibilités différentes d'interprétation des utilisateurs à propos de tout caractère d'un objet : il y avait un champ commentaire associé à chaque attribut et l'information contenue a pu être analysée après la première phase de validation, ce qui a contribué grandement à l'amélioration du questionnaire. Dans le cas fréquent où plusieurs experts ont contribué à la construction du système expert, seule la validation peut permettre de repérer les convergences de symptômes, les redondances ou les trous entre les expertises séparées. Elle doit se faire dans des sites soigneusement choisis, ou : • le besoin en diagnostic est réel, de par l'arrivée de nombreux échantillons de plantes malades, • l'utilisation des systèmes experts est possible, en termes de disponibilité de consultants non spécialisés, • les diagnostics peuvent être confirmés ou infirmés par un expert humain, • un suivi peut être assuré par le cogniticien concerné. La phase de validation, qui en théorie n'intervient qu'une fois le prototype terminé, gagne à commencer le plus tôt possible, dès que le système est montrable, et devient un élément permanent et central de la construction du système. Cela permet aux utilisateurs de se familiariser avec lui, aux experts de régler les différents types de bruits 5 qui peuvent avoir été introduits par l'utilisateur. Pour l’application sur la tomate, on a pu ainsi mettre en évidence trois niveaux de bruits : ◊ bruits liés à la collecte et à l’observation des exemples, ◊ bruits liés au remplissage du questionnaire, ◊ bruits liés à l’établissement du diagnostic. Ces bruits apparaissent tout au long d’une chaîne intitulée “Du problème à la maladie diagnostiquée”. La fiabilité du diagnostic dépend de l’accumulation des bruits antérieurs tout au long de la chaîne. Une méthodologie de collecte, d’observation et de description des exemples a pu être proposée afin d’obtenir de meilleurs exemples pour l’apprentissage [Conruyt & Piaton, 1987] (figure 1.1). Nous y reviendrons au chapitre 2 lorsque nous aborderons le problème de la robustesse. 5 Une définition générale du bruit est : “tout ce qui détériore l’information sur l’environnement que l’on cherche à connaître”. 26 Chapitre 1 Collecte Le problème dans la culture Le syndrome sur la plante Observation Les symptômes sur les organes Qualité de l'échantillon Compétences en matière d'observation Description Les concepts dans le système de représentation de l'utilisateur Qualité du questionnaire Interprétation Les hypothèses les causes possibles Identification Qualité de l'expertise Le diagnostic Fig. 1.1: Notre méthodologie de collecte, d’observation et de description des exemples C'est l'analyse des cas de “mauvais fonctionnement” du système expert qui a pu en effet permettre à l'expert et au cogniticien de proposer des solutions d'amélioration. Un mauvais fonctionnement n'était d'ailleurs pas forcément un échec absolu du système : le diagnostic peut s'avérer plus ou moins divergent de celui de l'expert (par exemple : mauvais classement des maladies du fait que le diagnostic présente plusieurs maladies simultanément). Il faut aussi se demander pourquoi telle question apparemment inutile a été posée, ou au contraire pourquoi telle autre qui aurait été logique n'est pas apparue. Enfin il faut analyser l'influence des “mauvaises” réponses de l'utilisateur, de façon à améliorer les résultats du système expert face à des données plus ou moins inappropriées. 1.3.4 Comparaison des deux approches Le but du stage de DEA d’Intelligence Artificielle que nous avons effectué [Conruyt, 1988] dans le cadre du projet INSTIL était de comparer deux systèmes à bases de connaissances en présence de tout l'univers “bruité” de description des maladies de la tomate de la campagne de 1987. Le premier système TOM (développé par un couple “cogniticien-expert”) était opérationnel, et l'autre INSTOM (généré par les logiciels d'apprentissage Neddie et Main) était à l'état de prototype. Le cheminement conceptuel 27 Une première validation par l'expert (D. Blancard) des règles produites automatiquement a montré qu'elles étaient trop générales (imprécises et incomplètes) et difficilement interprétables. Il s'est donc révélé nécessaire de comprendre le fonctionnement des logiciels d'apprentissage, de corriger certains “bugs” et de tester leurs performances propres afin d'obtenir de meilleures règles. Pour cela, une méthodologie d'évaluation a été mise au point en faisant intervenir différents tests locaux (dits de “robustesse” et de “précision”) avec plusieurs niveaux de difficulté sémantique en fonction : ◊ du nombre d'exemples (17 à 21), ◊ du nombre de classes (2 à 3), ◊ des objets impliqués (types de symptômes, organes). D'autres tests plus globaux faisaient intervenir : ◊ un plus grand nombre d'exemples et de classes (32 à 34), ◊ des types de cas différents (cas typiques ou photos, cas réels bruités), ◊ deux types de diagnostic (simple ou multiple, c'est à dire avec plusieurs maladies présentes simultanément sur la même plante). Ces moyens expérimentaux ont été implantés dans un environnement de tests. Les résultats sont d'ordre à la fois quantitatifs (durées d'élaboration de l'arbre de décision et des règles de production en fonction du nombre d'exemples et du nombre de classes) et qualitatifs (appréciation de la justesse des règles en fonction de la nature des caractères observés, de l'homogénéité des exemples). Nous avons pu mettre en évidence certaines incohérences dans les règles apprises qui sont dues à des insuffisances dans la phase d'acquisition des connaissances. Nous mettons ainsi en lumière l'importance de la bonne structuration des connaissances de base au sein d'un modèle descriptif pour un apprentissage correct. En effet, ce modèle indique les relations structurelles entre les concepts, il peut dans un premier temps être utilisé pour acquérir les exemples à l'aide d'un questionnaire et servir de guide d'observation. La qualité des exemples à apprendre (les données observées) dépend directement de la qualité de la phase de modélisation des descriptions (données observables). Dans un deuxième temps, il servira aussi au système d'apprentissage pour généraliser en utilisant les hiérarchies d'objets (en sachant par exemple que le terme de symptôme est plus général que le terme de tache). Ces constatations sont à l'origine de l'implantation du système d'induction KATE utilisant une représentation orientée objets : les frames. 28 Chapitre 1 Au cours de ce stage, des propositions pour améliorer les connaissances de base avec notamment un nouveau statut des descripteurs sous forme de différents types dépendants les uns des autres (objets, attributs et valeurs) ont pu être fournies. Nous avons mis aussi en évidence qu'il existe quelques règles générales de construction d'un bon modèle de représentation des connaissances dans le domaine du diagnostic : elles seront développées au chapitre 4. Partant des recherches sur le bruit de [Manago & Kodratoff, 1987], des travaux complémentaires ont pu enfin être menés sur son traitement dans un univers réel de description (coût du diagnostic, recouvrement et priorité des concepts, tolérance des attributs numériques, confiance dans les exemples) [Conruyt & Lesaffre, 1988]. Tous ces efforts de contrôle des entrées et d'évaluation des sorties du système ont contribué à la production de règles de meilleure qualité syntaxique en pratiquant un réglage progressif des logiciels d'apprentissage. Néanmoins, du point de vue de leur sémantique, l'expert a été surpris de l'aspect nouveau de certaines d'entre elles qui expriment souvent des évidences en phytopathologie formulées d'une manière inhabituelle. Certaines d'entre elles sont extrêmement concises et jugées positivement. D'autres, cependant, sont trop générales et peuvent choquer même si leur formulation syntaxique est jugée vraie. Par exemple, la manière de Main de caractériser certaines maladies par la négative est déroutante : (Si ¬A et si ¬B et si ¬C et ... et si ¬X alors conclusion) exemple : Si existe(tache-ou-plage-sur-foliole) = non& existe(anomalie-de-la-forme-ou-de-la-taille-sur-foliole) = non& existe(jaunissement-sur-foliole) = non& existe(autres-anomalies-sur-foliole) = non& existe(jaunissement/dessechement-sur-foliole) = non& existe(dessechement/tache-ou-plage-sur-foliole) = non& existe(fletrissement/jaunissement-sur-foliole) = non& existe(ravageurs-sur-foliole) = non& existe(tache-ouplage/autres-anomalies-de-coloration-sur-foliole) = non& existe(jaunissement/tache-ou-plage-sur-foliole) = non& existe(fletrissement/tache-ou-plage-sur-foliole) = non& existe(fletrissement-sur-foliole) = non& existe(dessechement-sur-foliole) = non& existe(autres-anomalies-de-coloration-sur-foliole) = non Alors Oidium (0.20), Pvy (0.80) Cette règle signifie “S'il n'y a aucun de ces 16 symptômes, alors la maladie est Oidium avec une probabilité de 0,2 ou Pvy avec une probabilité de 0,8". Elle n'est pas jugée compréhensible par l'expert, parce qu'elle n'est pas facile à interpréter, mais elle peut néanmoins être tout à fait correcte pour classer de nouveaux exemples. Ainsi, pour pouvoir comparer efficacement les logiciels d'apprentissage (INSTOM) et le système expert TOM, il ne suffit pas de disposer de règles syntaxiquement cohérentes par rapport aux exemples appris. L'objectif est aussi Le cheminement conceptuel 29 d'acquérir des règle ayant un sens pour l'expert. Ceci n'est atteint que si une modélisation préalable du domaine a été établie pour indiquer les relations entre les différents objets constitutifs ainsi que leurs statuts respectifs (objet, attribut, valeur). La conclusion de ce travail est que la modélisation du domaine est la première étape indispensable pour apprendre à partir d'exemples. Ce travail n'a pas pu être réalisé à temps avant la fin du projet INSTIL. C'est la raison qui explique la faiblesse des résultats de l'évaluation des mécanismes d'apprentissage au niveau qualitatif [Lesaffre et al., 1989]. 1.3.5 Conclusion Dans ce paragraphe, nous avons comparé les différentes démarches des chercheurs pour acquérir des connaissances expertes. Ces comparaisons sont établies en fonction de l’expérience acquise pendant les deux années d’utilisation des systèmes experts (1986-1987). Les systèmes experts essayent de modéliser le raisonnement d’un expert dans un domaine précis. Plutôt que de le modéliser sous forme de règles et d’appliquer un mécanisme déductif, nous préférons appliquer la méthode inverse en utilisant l'apprentissage inductif à partir d’exemples pour acquérir les règles expertes. Nous avons justifié ce choix en analysant le raisonnement de l’expert d’un point de vue pratique (la logique de fonctionnement : § 1.3.2), puis nous avons montré l’importance de la validation des connaissances sur le terrain (la logique d'utilisation). En effet, la qualité de l’expertise est nécessaire mais n’est pas suffisante pour obtenir des résultats robustes : l'adaptation des connaissances à l'utilisateur cible est déterminante pour l'acceptation du système expert. Enfin, pour le traitement des connaissances, nous avons voulu comparer les techniques d’apprentissage et un système expert classique (§ 1.3.4). Nous avons appris alors qu’il était nécessaire de bien structurer les connaissances de fond pour obtenir des descriptions de qualité. Ce fut là l’origine de la conception du logiciel KATE. 1.4 KATE KATE (Knowledge Acquisition Tools for Expert systems) est un logiciel d'apprentissage à partir d'exemples issu des travaux d'INSTIL et de la thèse de Manago (1988). Tous les acteurs de ce projet ont souligné la nécessité pour les logiciels d'apprentissage automatique de posséder un bon formalisme de représentation des connaissances du domaine et des mécanismes d'exploitation capables de tirer partie de ce formalisme. 1.4.1 Une bonne représentation des connaissances Un système d'apprentissage doit s'adapter à une représentation plus complexe de la réalité. Comme le système ID3 dont il est issu, Neddie utilise une 30 Chapitre 1 représentation des connaissances par vecteurs “attribut-valeur” (logique des propositions ou logique d'ordre 0). Il n'utilise aucune connaissance sur le domaine, c'est à dire aucune taxonomie (ex : blanc et jaune sont des couleurs claires), aucune règle (ex : lorsqu'il y a une multitude de taches sur une feuille, alors leur taille est petite), aucune relation. Il ne peut pas par exemple représenter les objets composites (une plante est formée d'une tige, de feuilles, de racines, etc.) et les hiérarchies de spécialisation d'objets (un symptôme peut être précisé par les termes de tache, anomalie de coloration, flétrissement, etc.). Si ce mode de représentation des connaissances est adéquat pour certaines applications simples, il s'est avéré beaucoup trop limité pour notre application en pathologie végétale. Nous devons être capable de représenter un nombre quelconque d'objets du même type : il peut en effet y avoir jusqu'à six symptômes différents sur une même plante avec par exemple deux sortes de taches sur les feuilles qui n'indiquent pas la même maladie ! Cette caractéristique objective (car naturellement présente) ne peut pas s'exprimer autrement qu'en introduisant des variables indicées aux objets comme par exemple tache(1) et tache(2) indiquant que l’on a deux sortes de taches, ce qui est la caractéristique d'un formalisme d'ordre 1 ou logique des prédicats. De plus, la description des exemples est faite de manière subjective par des observateurs de nature multiple. Les utilisateurs moins qualifiés que l'expert ne reconnaissent pas forcément les symptômes à décrire : ils peuvent en voir qui sont secondaires ou non pertinents aux yeux de l'expert (par rapport aux maladies possibles de la plante). Ceci peut être dû soit à des “faux symptômes” (par exemple, des taches de cuivre issues d'un précédent traitement à la bouillie bordelaise) ou à des problèmes d'évolution ou de convergence des symptômes observés à des stades avancés de la maladie (ex : un flétrissement évoluant en jaunissement pour le “chancre bactérien”). La manifestation de la maladie donnera l'apparence de deux symptômes différents que le technicien agricole décrira alors que l'expert n'en verra qu'un seul, celui qui est la cause primaire de la maladie (le flétrissement est ainsi le symptôme “pathognomonique” de Corynebacterium michiganense) [Conruyt & Piaton, 1987]. Ce “bruit” lié aux compétences en matière d’observation (fig. 1.2) illustre la complexité des descriptions de symptômes que les utilisateurs sont capables de fournir au système d'apprentissage. Il est donc souhaitable que le système sache montrer comment observer, au travers d'un questionnaire guidant l'observation de l'utilisateur. Cela nécessite une hiérarchisation des descripteurs entre eux, chacun obtenant un statut propre plus ou moins dépendant des autres dans la hiérarchie. La recherche d'un certain ordre de description met en lumière la notion d'objet dans la structuration des connaissances. Il n'est plus possible de considérer les caractéristiques comme indépendantes les unes des autres comme cela est le cas dans les tableaux de données classiques utilisés par ID3 ou Neddie. Le cheminement conceptuel 31 Ces remarques ont amené un des acteurs principaux d'INSTIL à concevoir le système KATE [Manago, 1991] comme une extension de Neddie afin d'être en mesure de traiter les entités complexes du monde réel. Dans ce système, on s'appuie sur une représentation à base de schémas (ou frames) [Minsky, 1975], qui est une représentation par objets structurés dérivée de la logique d'ordre 1 [Nilsson, 1980]. La formalisation de ces objets du point de vue mathématique est décrite au chapitre 5, leur formalisation informatique au chapitre 6. Ensuite, les extensions apportées à l'algorithme d'induction utilisant ces connaissances structurées sont formalisées au chapitre 7. 1.4.2 Des mécanismes d'exploitation adaptés Un frame ou schéma est une structure de données à trois niveaux frameattribut-facette représentant une unité d'information descriptive (un descripteur) avec une sémantique donnée [Winston, 1977], [Bobrow & Winograd, 1977], [Masini et al., 1989]. Si le descripteur est un objet, il peut aussi bien représenter une famille d'objets (une classe) qu'un objet particulier (une instance de la classe). La distinction entre ces deux types d'objets est importante du point de vue de l'héritage (qui permet le partage et la réutilisation des propriétés entre les objets) car la nature des relations qu'ils entretiennent n'est pas la même : ◊ deux objets de type “classes” sont reliés par la relation d'inclusion entre ensembles avec un lien de type “sorte-de”, ◊ un objet de type “instance” est un élément appartenant à un objet de type “classe” et le lien est de type “est-un” [Giarratano & Riley, 1989]. Un frame n'accède qu'à (ne connaît que) l'information dont il dispose “en propre”, c'est à dire à ses propriétés ou champs associés (les slots), et aux valeurs qu'elles prennent. Chaque champ est nommé et possède un type qui permet de déterminer soit les caractéristiques locales de l'objet (type attribut), soit les relations que l'objet entretient avec d'autres objets (type relation). D'autres types sont également possibles. Certains sont prédéfinis et d'autres peuvent être introduits par la personne chargée de représenter les connaissances de l'expert : ◊ les démons sont des messages procéduraux prédéfinis qui permettent d'appliquer des réflexes (activés automatiquement lors de l'accès à la valeur de l'attribut) ou des règles de bon sens sur les objets (appliquées à la demande de l'utilisateur). Ces règles appelées aussi méthodes permettent soit : 32 Chapitre 1 1) un raisonnement guidé par les faits en chaînage avant (déduire la valeur d'un champ à partir de celle d'un autre champ à l'aide d'un démon “siajouté” : par exemple, le fait que le mode de culture soit “plein-champ” permet de déduire automatiquement que le type de culture est “en-sol” et que le mode de chauffage de cette culture est “froid”), 2) un raisonnement guidé par les buts en chaînage arrière (déduire la valeur du champ à partir de celle de plusieurs autres champs à l'aide d'un démon “si-besoin” : par exemple, si l'on cherche à renseigner le rapport entre la longueur des ailes et la longueur du corps d'un insecte, un message “rapport” est envoyé à la longueur des deux objets pour savoir s'ils sont connus. Si oui, le rapport peut être calculé sinon la procédure n'est pas déclenchée, et cela tant que les deux autres valeurs ne sont pas indiquées par l'utilisateur, ◊ la cardinalité explicite le fait qu'un objet puisse être absent (0), présent (1), et s'il est présent, puisse être décrit plusieurs fois. Dans ce dernier cas, on parle alors de mutiplicité de l'objet, ◊ l'utilité de l'objet indique son mode d'utilisation, soit qu'il est significatif pour la classification, soit qu'il est simplement là pour structurer la description (il est alors fictif, cf. § 4.6.4.1). Chaque champ nommé est aussi un frame dépendant de l'objet auquel il est associé. Les champs possèdent leurs propres types (appelés facettes) qui donnent différentes informations complémentaires : ◊ l'ensemble des valeurs possibles pour une classe (range), la valeur observée pour une instance. On doit noter ici que les champs de type relation ont des valeurs qui sont elles mêmes d'autres objets alors que les champs de type attribut possèdent des valeurs “terminales” non explicitées sous forme de frames. Il y a néanmoins une exception avec les valeurs qui sont classifiées (l’attribut possède alors une taxonomie de valeurs) et qui sont décrites aussi par des frames, ◊ la valeur par défaut prise par l'attribut de l'objet, ◊ la question associée au champ, ◊ Outre le type relation expliqué ci-dessus, d'autres types permettent de préciser la nature des valeurs associées au champ : types nominal (valeurs discrètes), classifié (taxonomie de valeurs), booléen (oui-non), entier, réel, avec les combinaisons valides pour les types numériques (intervalle) et qualitatifs (ordonné), Le cheminement conceptuel 33 ◊ la cardinalité de l'attribut qui indique le nombre de valeurs tolérées pour fournir une réponse plus ou moins précise à la question (cf. § 4.6.4.3). L'intérêt d'utiliser cette approche se situe à deux niveaux : Au niveau de la description, il est possible de concevoir un modèle d'organisation des connaissances selon différents points de vue détaillés au chapitre 4. L'idée principale est de proposer à un utilisateur quelconque du système un questionnaire sous la forme d'un guide d'observation (comment observer ?) avec le principe de pouvoir décrire du niveau le plus général au niveau le plus particulier (en partant de la racine !) selon différentes directions (dépendances et spécialisations). Ce guide est l'ossature du questionnaire, il n'est pour autant pas contraignant : si l'utilisateur désire directement décrire un objet à un niveau donné de la structure proposée, le questionnaire va inférer l'existence des objets dont il dépend avant de permettre la description de l'objet. Au niveau de la classification, une procédure de filtrage des objets et des attributs pertinents dans le contexte d'un nœud de l'arbre de décision permet de contraindre l'espace des tests possibles pour le calcul du gain d'information. Pour ID3, le gain d'information est calculé pour tous les attributs qui n'apparaissent pas déjà dans le chemin courant de l'arbre (menant de la racine au nœud courant). Pour KATE, seuls les descripteurs applicables au nœud courant sont pris en compte pour le calcul du gain d'information de chacun d'eux (voir plus bas). KATE n'est donc pas une nouvelle technique d'induction à part entière, elle représente une extension des algorithmes ID3 et Neddie pour le traitement de données complexes. Pour comprendre sur un exemple simple le principe de la discrimination par arbre selon ID3, on peut se référer à [Quinlan, 1983] et [Manago, 1988]. En analyse des données, il s'agit d'un processus analogue de segmentation [Diday, 1982]. Pour sa part, KATE teste systématiquement le gain d'information d'un attribut associé à un objet. Il exploite la structure des schémas pour engendrer dynamiquement les tests dont le gain d'information va être calculé [Manago et al., 1991]. Considérons une base d'exemples pour une application de diagnostic en pathologie végétale (figure 1.2) : 34 Chapitre 1 Exemple ex1 Maladie Symptôme ... Verticilliose flétrissement ... ex2 Botrytis tache ... ex3 Botrytis tache ... ex4 Alternariose tache ... . . . . . . . . Tache Zonations(tache) Taille(tache) ... ex2 oui 18 ... ex3 non ex4 16 2 ... oui . . . . . . . . ... Fig. 1.2 : Tableau des exemples formés d'objets structurés pour les maladies des tomates Le but est de reconnaître efficacement une maladie à partir de ses caractéristiques. L'algorithme d'induction de KATE permet de construire automatiquement un arbre de décision tel celui de la figure 1.3 : existe(tache) oui non taille(tache) <9 Alternariose: ex4 Verticilliose: ex1 9 Botrytis: ex2, ex3 Fig. 1.3 : Un arbre de décision pour la reconnaissance de maladies de la tomate Un nœud, dans l'arbre de décision, porte soit sur l'introduction d'un nouvel objet, soit sur un champ d'un objet apparaissant déjà dans l'arbre de décision. Les nœuds sont donc soit du type “Y a-t-il une tache ?” soit du type “Quelle est la taille de la tache déjà instanciée plus haut dans l'arbre ?” • Quand tous les exemples conformes à la valeur du test (libellé à la branche courante de l'arbre de décision) contiennent un objet du même type (une tache par exemple), ses champs deviennent des tests candidats au calcul du gain d'information en plus des objets qui n'ont pas été introduits plus haut dans l'arbre. Le résultat du meilleur test conduit soit à introduire un nouvel objet dans le chemin courant de l'arbre de décision, soit à préciser la Le cheminement conceptuel 35 description de l'objet courant au niveau de ses attributs ou encore de ses spécialisations. • Si un seul des exemples au nœud courant ne contient pas un objet du même type, le gain d'information du test “existe(objet)” est calculé et les tests portants sur ses champs ne sont pas considérés. Pour les détails concernant l'algorithme, voir le chapitre 7. Cet arbre peut dans un deuxième temps être exploité pour identifier un nouveau cas : les nœuds de l'arbre correspondent à des questions posées à l'utilisateur, les feuilles correspondent aux diagnostics donnés par le système expert. L'algorithme ID3 utilise la mesure numérique du gain d'information dérivée des travaux en théorie de l'information fondée sur l'entropie [Shannon, 1949]. Le but est de déterminer à chaque niveau les critères les plus discriminants. En phase d'apprentissage de l'arbre, le gain d'information des différents critères est calculé et celui estimé le plus discriminant est sélectionné de façon irrévocable (pas de retour en arrière ou de recherche en faisceau). Ce processus est répété récursivement jusqu'à ce qu'il ne reste plus que des exemples de la même classe (ici le nom du diagnostic). ID3 utilise une stratégie de recherche heuristique en gradient [Nilsson 1980] qui tend à produire un arbre globalement efficace : en moyenne, un nombre minimum de questions sont posées à l'utilisateur durant la consultation interactive de l'arbre de décision. L'induction permet de transformer une base de données brutes en une connaissance opérationnelle exploitable. Elle permet en outre d'apprendre automatiquement trois types de connaissances : ◊ un ensemble de critères optimaux (en un certain sens) pour reconnaître efficacement un concept (une généralisation des exemples d'apprentissage), ◊ un ordre sur les critères en fonction de leur capacité à discriminer les exemples des différentes classes (information de contrôle), ◊ une partition des exemples d'apprentissage aux feuilles de l'arbre. Outre la construction d'un arbre de décision, des règles de production peuvent ensuite être obtenues par élagage de l'arbre [Manago, 1988]. Comparé à d'autres algorithmes d'induction, ID3 présente certains avantages : plusieurs exemples peuvent appartenir à la même classe dans la base à traiter, il peut y avoir plus de deux classes différentes à discriminer (nous ne sommes pas limité à un apprentissage de type exemples et contre-exemples), les critères nominaux (à valeurs discrètes) peuvent avoirs plusieurs valeurs pour marquer l'imprécision des réponses de l'utilisateur, etc.. Les implantations de l'algorithme ID3 gèrent également les critères à valeurs continues et ordonnées 36 Chapitre 1 (comme les valeurs entières et réelles) en “binarisant” le test. Un seuil est calculé dynamiquement comme pour le critère “taille” de la figure 1.3. Notons qu'un critère numérique peut apparaître à plusieurs reprises avec des seuils différents dans un même chemin de l'arbre. L'algorithme est très efficace et peut traiter de grosses bases d'exemples (la complexité algorithmique est linéaire en fonction du nombre des exemples). De plus, sa stratégie descendante (création de partitions des exemples au nœud courant) permet de traiter certains problèmes de “bruit” à l'aide de méthodes statistiques comme un élagage en χ 2. Il permet également de prendre en compte des coûts associés aux critères et qui dépendent du domaine d'application: coût financier d'un test, durée d'intervention sur une chaîne de production pour une application dans l'industrie manufacturière, douleur infligée à un patient pour une application médicale, fiabilité d'un critère visuel pour une application d'aide à la photo-interprétation, etc.. On préférera ainsi faire deux tests qui ne coûtent rien plutôt qu'un seul qui a un coût associé. On peut donc optimiser d'autres critères outre l'efficacité du diagnostic. 1.5 L'aide à la classification au MNHN A la suite de l'expérience en pathologie végétale décrite ci-dessus, une autre possibilité d'appliquer les systèmes experts a été proposée au MNHN (Muséum National d'Histoire Naturelle de Paris) au sein du Laboratoire de Biologie des Invertébrés Marins et de Malacologie (LBIMM, URA 699 du CNRS). Il ne s'agissait pas ici de faire de l'aide au diagnostic de symptômes décrits sur des invertébrés marins mais plutôt de concevoir et réaliser des outils informatiques pour aider les biologistes à identifier des spécimens, mais aussi à créer des regroupements de descriptions d’individus, d’espèces ou de sous-genres. 1.5.1 Comparaison avec l'opération SEPV de l'INRA La problématique est ici analogue à la précédente en ce qui concerne la démarche scientifique, tout en étant plus générale : ◊ au lieu de s'intéresser au couple “symptôme-diagnostic”, on travaille sur le couple “description-détermination”. En effet, le diagnostic peut être considéré comme une forme de détermination dans un certain contexte (la maladie) tout comme le symptôme est une forme de description selon ce même point de vue, ◊ on s'intéresse davantage à la nature et à la diversité des spécimens euxmêmes. L'objectif n'est pas seulement de déterminer un “avoir” (comme le nom de la maladie possédée par le spécimen), mais plutôt de déterminer un nom propre, ce qui fait “l'être” (c'est Solanum lycopersicum6), que l'on 6 Plus connu sous le nom vernaculaire de “tomate”. Le cheminement conceptuel 37 appelle la classe, et qui permettra de reconnaître par la suite d'autres spécimens, ◊ la classe est établie par l'étude des relations, l'analyse et la comparaison des différences et des ressemblances entre les divers spécimens qui composent l'échantillon. Les spécimens sont d'abord regroupés en Espèces, puis de manière ascendante, on regroupe les Espèces en Genres, puis les Genres en Familles, etc.. Le résultat est la fabrication d'une hiérarchie de classes ou taxinomie. De ce fait au MNHN, nous ne sommes pas en présence d'un seul but d'identification d’un avoir (comme une maladie), mais aussi et surtout d'un objectif de classification (ce qui fait l’être). Pour [Brusca R.C. & Brusca G.J., 1990] : «The term biological classification has two meanings. First, it means the process of classifying, which consists of the delimiting, ordering, and ranking of organisms into groups. Second, it means the product of this process itself, or the classificatory scheme. The natural world has an objective structure that can be empirically documented and described. One goal of science is to describe this structure, and classifications are one way of doing this. Carrying out the process of classification constitutes one of the principal tasks of the systematist or taxonomist.» La classification est donc plutôt un processus alors qu’une classification est assimilée à un résultat. Nous approfondirons la définition de la classification au chapitre 3. Les personnes chargées d'établir des classifications naturelles sont appelées des systématiciens. Pour [Matile et al., 1987] : «La systématique est l'étude et la description de la diversité des êtres vivants, la recherche de la nature et des causes de leurs différences et de leurs ressemblances, la mise en évidence des relations de parenté existant entre eux et l'élaboration d'une classification traduisant ces relations de parenté.» Cette définition de la systématique est tout un programme qui a pour but La Classification Finale des êtres vivants (l'organisation de la nature qui s'impose à l'homme). Dans notre travail, nous nous contenterons d'étudier les aspects qui ne sont pas liés à la phylogénie et à l'évolution des êtres vivants, c'est-à-dire décrire, nommer, distinguer les différentes sortes et permettre l'identification de nouveaux échantillons. Néanmoins, ces classifications servent de reformulation des descriptions et permettent de raffiner le modèle descriptif. C'est à partir de ce modèle que l'on pourra peut-être par la suite établir de vrais classifications fondées sur les reconstructions phylogénétiques. Une autre caractéristique de notre approche est que les objets que l'on cherche à décrire dans cette thèse sont plutôt des spécimens que des Espèces, comme cela semble souhaitable au MNHN du fait que c'est le travail quotidien des 38 Chapitre 1 taxonomistes que de recueillir des collections d'individus et de les classifier. Ainsi, nous nous plaçons du point de vue des nominalistes tels que Buffon ou Adanson qui soulignaient que les systématiciens ne peuvent étudier que des échantillons, sachant qu'ils n'ont pas la certitude qu'un échantillonnage ne renferme pas plusieurs Espèces qu'ils ne savent pas encore distinguer7 : La détermination exacte de l'objet d'étude constitue un préliminaire indispensable à toute recherche [Matile et al., 1987]. Par exemple, l'identification de maladies (le diagnostic) nécessite d'abord une classification des plantes afin d'identifier des objets comparables entre eux appartenant à une même classe bien établie : on ne compare pas les symptômes d'un plant de pomme de terre avec ceux d'un plant de tomate (bien qu'ils appartiennent tous les deux à la même famille des Solanacées !). De même, la classification des maladies nous est fournie au départ sans que l'on souhaite la remettre en cause (figure 1.4). Inversement, la classification naturelle des spécimens étudiés au Muséum considère différentes classes qui ne sont ni sûres ni définitives : ces classes peuvent être elles mêmes remises en question dans l'avenir. Dans le processus d'identification de maladies, c'est la description de l'association “symptôme-organe” dont le tout forme un syndrome qui est importante. Pour la détermination de spécimens, c'est simplement la description de l'organe (le composant) avec ses caractéristiques propres (selon différents points de vue) qui permet à elle seule de trouver le nom de la classe. 7 Dans ce contexte, la démarche du systématicien sur les spécimens est identique à celle du mathématicien sur les nombres. Ils forment des hypothèses en essayant de découvrir des régularités dans leurs observations, qu’ils expérimentent ensuite sur d’autres individus afin de renforcer ou réfuter leurs hypothèses. 39 Le cheminement conceptuel accident-climatique affection-non-parasitaire erreur-culturale coup-de-soleil pb-de-froid pb-conduite-culture pb-agronomique pb-alimentaire pb-hormonal phytotoxicité variété-inadaptée diagnostic bactérie champignon affection-parasitaire corynebacterium xanthomonas ... alternariose botrytis cladosporiose ... mycoplasme stolbur ravageurs acariens insectes virus cmv pvy tmv aleurodes mineuses pucerons noctuelles Fig. 1.4 : Une classification des maladies de la tomate C'est pourquoi en pathologie végétale, on n'avait pas représenté explicitement la structure de la plante avec des objets composites (les organes) qui dépendent les uns des autres. On a plutôt cherché à représenter la hiérarchie de spécialisation des symptômes en englobant le nom de l'organe sur lequel ils étaient situés (figure 1.5) : Fig. 1.5 : Représentation de la hiérarchie des symptômes dans TOM Par cette pratique, on mettait en valeur la notion d'héritage dans les arbres de spécialisation qui permettait de regrouper les propriétés communes aux objets les plus spécifiques vers les objets les plus généraux (figure 1.6). Par exemple, la 40 Chapitre 1 localisation et la répartition du symptôme sur la tige sont des champs (attributs) de l'objet “symptôme-extérieur-tige” qui sont hérités par les différents noms de symptômes (chancre-exterieur-tige, tache-ou-plage-exterieur-tige, etc.). On pouvait aussi justifier le bien fondé de l'héritage multiple en faisant hériter l'attribut “mesure” d'une tache quelconque vers l'objet “tache-ou-plageexterieur-tige”, alors que la couleur dépend toutefois de l'organe ou se situe le symptôme (elle masque la couleur de la tache-ou-plage plus générale) : tache-ou-plage symptôme-extérieur-tige mesure couleur localisation répartition tache-ou-plage-exterieur-tige couleur Fig. 1.6 : Représentation de la hiérarchie d’un symptôme en utilisant l’héritage multiple Si ce mode de représentation est séduisant du point de vue informatique, il ne correspond pas du tout à la réalité biologique : un symptôme dépend d'un organe et non l'inverse ! De plus, la préoccupation de l'expert est d'obtenir des descriptions de qualité faites par lui-même ou d'autres biologistes. Comment faire alors pour guider l'observateur dans un tel graphe avec héritage multiple ? La préoccupation majeure de l'informaticien doit donc être de s'adapter à la réalité du domaine et de se prémunir contre son penchant naturel à vouloir faire “rentrer” le domaine étudié dans un modèle préfabriqué, quand bien même il s'agirait d'un langage à “objets”. Il n'est d'ailleurs pas exclu que la notion d'"héritage multiple" ne corresponde à aucune réalité naturelle tangible, et ne constitue en fait qu'un artifice pour traiter de l'influence de contextes variables. En fait dans le problème précédent, on a mélangé à tort deux dimensions orthogonales qui sont la composition d'objets et la spécialisation d'objets. Ces deux dimensions doivent être distinguées dans le modèle descriptif et dans la représentation des connaissances, comme nous le verrons au chapitre 4. 1.5.2 Utilisation des langages de frames et de l'hypertexte Pour répondre au problème d'obtenir des descriptions de qualité qui tiennent compte de la manière d'observer de l'expert, nous nous sommes tourné vers un langage de type hypertexte : HyperTalk d'HypercardTM. Ce choix permettait de construire rapidement des prototypes de questionnaires sans avoir à se préoccuper de la représentation interne des connaissances. Le cheminement conceptuel 41 Un questionnaire “sur mesure” pour l’application tomate a été fabriqué à l’INRA de Guadeloupe en 1989 à partir des propositions écrites dans le mémoire de fin d’études de l’ISARA. Nous nous sommes intéressé plus à l’aspect ergonomique du questionnaire en ajoutant des dessins expliquant le vocabulaire, des messages d’observation et des animations graphiques. Entre temps, D. Blancard avait édité son manuel d’identification des maladies de la tomate basé à la fois sur la localisation des symptômes par organe et des descriptions graphiques (dessins, photos) de concepts (folioles filiformes, taches en œil d’oiseau sur fruit, etc.). Cet ouvrage est un véritable guide d’observation empruntant à TOM une grande partie de ses connaissances ainsi que la façon dont celles-ci sont organisées dans le système. Il peut servir de base à la conception d’un authentique questionnaire multimédia, ce qui permettrait [Blancard, 1988]. Il était clair que le questionnaire devenait notre préoccupation majeure pour l’obtention d’exemples de qualité. D’ailleurs, D. Blancard a par la suite édité un autre ouvrage sur d’autres cultures maraîchères, ce qui illustre bien l’intérêt porté à cette démarche nouvelle pour des outils de diagnostic. Constatant que la procédure d’observation des symptômes sur différentes plantes utilisait le même schéma, c'est-à-dire un schéma fondé sur une description structurée par organes, l’idée est alors venue d’automatiser un processus de construction automatique de questionnaires en s’appuyant à la fois sur une structure de connaissances (frames) représentant le modèle descriptif et les entités hypertextes d’HyperCard (boutons, champs, cartes, etc.). Il ne serait alors plus la peine de fabriquer à chaque fois un questionnaire hypertexte par plante à partir de rien, mais de le générer à l’aide d’un programme associant les objets, attributs et valeurs des connaissances de fond aux entités hypertextes. Cette trame de questionnaire pourrait être ensuite personnalisée par l’expert. Cette idée nouvelle a servi de base à l’élaboration de notre sujet de thèse présenté au MNHN, en collaboration avec l’INRA, l’INRIA et la société Acknowledge (rebaptisée Acknosoft en 1991). Notons que le couplage entre des outils d'acquisition de connaissances, les langages de frames et l'hypertexte n'est pas neuf : ils permettent d'aborder le concept d'Hypermedia pour favoriser la communication des connaissances expertes vers des utilisateurs variés [Gaines & Linster, 1990]. D'autres auteurs [Rada & Barlow, 1989] se sont plus intéressés à la paire systèmes experts et hypertexte pour constituer le concept d'expertexte, mettant en avant le couplage entre les règles et les entités hypertextes et non pas entre les objets du modèle eux-mêmes et ces entités (ceci constitue l'originalité de notre travail, cf. § 6.4.2). 42 Chapitre 1 1.5.3 L’application SPONTAX Le projet SPONTAX (acronyme signifiant “Sponge taxonomies”) servant de support d’application à cette thèse a pour objectif d’aider les biologistes à la classification et à la détermination d’éponges marines. Il est important de distinguer deux types de processus de classification pour bien fixer les objectifs : ◊ Le premier type est la classification naturelle établie par les spécialistes qui ont regroupé les spécimens à des niveaux taxinomiques différents selon certains critères morphologiques et avec des méthodes diverses (embryologiques, biochimiques, histologiques, cytologiques, etc.). Les éponges appartiennent au Phylum Porifera (qui porte des pores) dans la Série des Invertébrés. Ce sont des animaux. Elles vivent presque toutes en milieu benthique (sur les fonds marins) à des profondeurs variées [Brusca R.C. & Brusca G.J., 1990]. A peu près 9000 espèces d’éponges ont été décrites au sein de trois Classes (Calcarea, Hexactinellida, Demospongia). Les Demospongia regroupent 95% des espèces vivantes décrites. Les données sur lesquelles nous allons travailler représentent des spécimens d'un seul Genre d'éponges siliceuses appelé Hyalonema et appartenant à la Classe des Hexactinellida (figure 1.7). Ce sont principalement des éponges de grande profondeur ancrées dans des sédiments mous et bien individualisées. Série Embranchement Classe Ordre Famille Genre Sous-Genre Espèce --> Invertébrés --> Porifera --> Hexactinellida --> Amphidiscophora --> Hyalonematidæ --> Hyalonema --> Prionema --> spinosum Fig. 1.7 : Disposition du Genre Hyalonema dans la hiérarchie linéenne ◊ Le second type est la classification artificielle correspondant à une méthode informatique de partitionnement des descriptions. En analyse des données, les partitions obtenues (qui n’ont pas nécessairement de concept associé) produisent une classification alors qu’en intelligence artificielle, on recherche des définitions associées aux partitions (voir § 3.3.2). Le but poursuivi au départ du projet était de comparer deux classifications naturelles établies par deux experts au début du siècle [Schulze, 1902], [Ijima, 1926] avec une classification artificielle basée sur une technique informatique (apprentissage inductif avec KATE). Il faut savoir que les classifications qui ont été proposées sur ces espèces de Hyalonema sont essentiellement basées sur des caractères microscopiques liés aux différentes sortes de spicules8. Les 8 Les spicules sont de minuscules aiguilles siliceuses, dont l'agencement plus ou moins Le cheminement conceptuel 43 exemples sur lesquels nous avons travaillé pour établir cette classification artificielle sont aussi bien des cas réels d'éponges, c'est-à-dire des descriptions de spécimens, que des cas virtuels. Ces derniers regroupent des descriptions de plusieurs spécimens dont on ne maîtrise pas toujours l’origine : les individus sont récoltés par dragage, ce qui ne permet pas de récupérer toujours des spécimens entiers. Est-ce que la description effectuée est celle d’un spécimen unique et entier ou bien a-t-elle été reconstituée à partir de morceaux d’individus différents jugés appartenir à la même classe ? Cette information n’est pas toujours indiquée dans les descriptions livresques anciennes. L’autre but de l'étude au LBIMM est de construire un système expert de détermination, permettant de reconnaître des Sous-Genres de Hyalonema à partir de nouvelles observations d'éponges. Les observations sont des descriptions de nouveaux spécimens dont on ne connaît pas la classe de détermination, c'est-à-dire à quel Sous-Genre ils appartiennent. De ces deux objectifs différents (classification et détermination) a découlé un troisième, celui de la modélisation des connaissances descriptives de l’expert. En effet, pour répondre aux objectifs de classification et de détermination, il est nécessaire de constituer une base de descriptions conforme à sa richesse et sa diversité naturelles : avec l'expérience acquise des autres projets (SEPV et INSTIL), nous savons qu’il ne faut pas appauvrir les données pour s’adapter aux outils de représentation des connaissances et aux algorithmes de traitement. Au contraire, il faut laisser s’exprimer toute l’expertise disponible dans les connaissances de départ. Ce point de vue est pour nous un élément capital de la robustesse des systèmes de détermination en biologie. Nous nous sommes volontairement restreints au Genre Hyalonema pour lequel on peut disposer d'un grand nombre de descriptions répertoriées (plus d'une centaine). Le domaine à décrire est représentatif d’une grande majorité d’autres domaines en systématique, sans être trop complexe ni trop simple : les spécimens sont bien individualisés (ce ne sont pas des colonies), sans polymorphisme, et sont représentés par un squelette (et non par des parties molles plus sujettes aux modifications du milieu). Néanmoins, on peut trouver une grande variabilité de descriptions possible au sein d'un même Sous-Genre. Le choix de ce domaine a aussi été favorisé par la disponibilité bienveillante de l'expert M. Lévi, dont le départ définitif à la retraite poserait le problème crucial de la perte d’une expertise non transmise au MNHN. La nature restreinte, pas trop complexe, et bien délimitée du domaine a été retenue en priorité pour servir de support à la création des outils informatiques (éditeur de modèle descriptif et de questionnaire). enchevêtré constitue une sorte de squelette qui rigidifie le corps mou de l'éponge. 44 Chapitre 1 Une fois créés, ces outils nous ont permis de concevoir un modèle descriptif et une base de 125 exemples classés en douze Sous-Genres. Le schéma de l’annexe 3 montre la distribution des descriptions en fonction des Sous-Genres. On trouve pour chacun d’eux les numéros d’exemples correspondants et le nombre de descriptions. La répartition n’est pas homogène, elle illustre la représentativité des Sous-Genres disponibles au moment de la récolte en mer (échantillonnage très aléatoire lié à la compétence scientifique de l’équipage) et dans la collection. Trois Sous-Genres sont rares (Thamnonema, Phialonema et Onconema) alors qu’un autre est abondant (Cyliconema). Cette abondance est à relier aussi au nombre de descriptions disponibles dans la littérature chez les différents auteurs. Par rapport au traitement de ces descriptions, M. Lévi espère voir apparaître une classification dont il pourra a posteriori juger de l’efficacité (par rapport à l’état de ses connaissances). Il s’agit pour lui de savoir s’il est opportun de faire confiance à un système de classification artificiel pour son travail quotidien de systématicien. Le cheminement conceptuel 45 1.6 Conclusion A la suite de toutes ces années d'expérimentation, nous nous apercevons que nous avons traité la problématique de l'acquisition des connaissances à l'envers. En effet, les cogniticiens de l'INRA ont commencé par utiliser des méthodes d'élicitation de connaissances et la logique mathématique pour représenter le savoir de l'expert sous forme de règles déductives ❶ (figure 1.8). Or, ils se sont rendu compte que : ◊ ◊ ◊ ◊ l'expert a des difficultés à exprimer ses règles oralement, les domaines traités ne sont pas caractérisés par l'heuristique et l'expérience acquise, le formalisme des règles de production est inadapté à certaines formes de raisonnement non monotone, les cas atypiques ou exceptionnels étant difficilement pris en compte par ce formalisme, la maintenance d'une base de règles est délicate, etc.. L'émergence des techniques d'apprentissage et des langages à base d'objets a donné alors la possibilité de mettre au point des méthodes inductives d'extraction de règles automatiquement à partir d'exemples représentés par des frames ❷. En adoptant ce principe dans INSTIL, on a déplacé le problème de l'acquisition des connaissances en amont, c'est-à-dire au niveau de l'acquisition des exemples à l'aide d'un questionnaire. Les chercheurs en informatique espéraient de cette manière générer un modèle du domaine automatiquement à partir du traitement inductif des exemples [INSTIL Project Summary, p. 40, 1989]. C'était sans compter la difficulté d'obtenir des descriptions de qualité pour apprendre de bonnes règles [Conruyt & Piaton, 1987],[Conruyt, 1988]. Cette qualité découle des bonnes observations que doit effectuer l'utilisateur du système, qu'il soit expert ou non. En construisant plusieurs questionnaires sur un même problème et en les confrontant à la réalité du terrain (le contexte de description et le vocabulaire sont différents entre les utilisateurs et l'expert), l'expert s'est rendu compte qu'il existait une structure fondamentale de description de son domaine sur lequel devait s'appuyer le questionnaire pour guider correctement l'observateur [Blancard, 1989]. Nous avons nommé cette structure le modèle descriptif. Le cogniticien se doit de représenter correctement ces connaissances de fond que l'on appellera aussi “l'observable” dans nos applications. Ces connaissances implicites sont souvent “de bon sens” et dépendantes du domaine. Le cogniticien ne peut pas se passer de l'aide de l'expert pour les expliciter. Donc, le problème s'est encore déplacé d'un cran en amont afin de savoir comment acquérir un bon modèle descriptif du domaine ❸. C'est finalement cette question qui est pour nous à la source du problème de l'acquisition des 46 Chapitre 1 connaissances dans le contexte de l'apprentissage à partir d'exemples... de qualité. modèle descriptif ❸ exemples ❷ règles ❶ résultats robustes Fig. 1.8 : Chronologie de notre approche de l'acquisition des connaissances L'acquisition de cette 9 du domaine est aussi l'objet de recherches actives dans le cadre de la modélisation des connaissances [Reynaud & Tort, 1994], [Charlet et al., 1994] et de la méthodologie KADS [Breuker & Wielinga, 1989]. Mais leur méthode et la notre n'ont rien à voir ! D'une part, leur approche est axée sur la modélisation du raisonnement de l'expert : nous préférons déléguer la construction du raisonnement aux outils d'apprentissage, qui renvoient une image résumée des connaissances de l'expert. Ce dernier peut ensuite les analyser à la lumière des descriptions qu'il a introduites. Ainsi, en faisant une interface entre l'expert et sa connaissance, nous fournissons une aide à l'expert avant tout alors que la méthodologie KADS fournit une aide au cogniticien pour éliciter les connaissances expertes. D'autre part, bien qu'elle soit vue comme un standard de l'ingénierie de la connaissance, KADS est une approche descendante, c'est-à-dire qu'elle a été pensée au niveau conceptuel, puis appliquée ensuite dans différents domaines, la plupart industriels. Pour nous, la méthodologie KADS est trop générique, théorique et abstraite et ne s'adapte pas facilement aux spécificités des domaines biologiques que nous voulons traiter. Comme nous l'expliquerons au chapitre 3, la diversité et la complexité des objets naturels à traiter nous obligent à l'inverse à expérimenter des solutions adaptées à des problèmes concrets posés par les utilisateurs. Nous passons ainsi d'un niveau pratique à un niveau théorique (approche expérimentale ascendante). En privilégiant l'observation et l'écoute des besoins des utilisateurs, nous parions sur une adaptation progressive des outils à leur demande, ce qui constitue pour nous le véritable défi de la robustesse de l'acquisition des connaissances. 9 (Philo) : la partie de la métaphysique qui s'intéresse à l'Etre en tant qu'Etre [Petit Robert, 1993]. Il s'agit donc ici de décider quels sont les objets que l'on retient comme existant dans le domaine selon leur pertinence vis à vis de l'objectif à atteindre. Le cheminement conceptuel 47 En fait, nous sommes plus proches de la démarche expérimentale propre à la Statistique telle qu'elle est exprimée par Tomassone [Tomassone, 1991] (voir chapitre 2). Nous y ajouterons toutefois l'impératif d'expliciter le modèle descriptif pour obtenir des données de qualité : c'est un élément majeur de la robustesse des systèmes de détermination. Un des buts de cette thèse est d'apporter une solution à ce problème d'acquisition de descriptions robustes (observables et observées) dans le domaine de la biologie qui nous intéresse. Pour nous, le modèle descriptif n'est pas l'ensemble des règles apprises par une ou l'autre des techniques d'induction. Il n'est pas une intension du domaine dévoilée par le traitement de l’observé comme pourraient le penser certains informaticiens trop éloignés des applications. Le modèle descriptif est l'ensemble des connaissances observables initiales exprimant la structure naturelle du domaine que l'expert doit expliciter. Cette tâche permet la transmission de son “savoir observer” au sein d'un questionnaire, véritable guide d'observation. En utilisant ce guide, l'observateur est à même de fournir des descriptions les plus complètes et cohérentes possibles qui soient l'image la plus proche des individus ou spécimens à décrire. Une fois que la source du problème de l'acquisition des connaissances a été identifiée, nous sommes capables de reconsidérer la problématique dans le bon sens, en partant d'un modèle descriptif du domaine et en procédant par étapes jusqu'aux résultats : 1) Acquisition du modèle descriptif, 2) Acquisition des exemples ou des cas, 3) Traitement des connaissances descriptives, 4) Validation des résultats. Il reste néanmoins à définir les objectifs du système afin de pouvoir adapter les outils de traitement des descriptions. Les besoins des biologistes rencontrés au MNHN sont multiples, mais parmi eux, les systématiciens et les naturalistes font appel surtout à des outils d'aide à la classification et à l'identification de spécimens, qui se basent sur leur travail quotidien. 48 Chapitre 1 II QU'EST-CE QUE LA ROBUSTESSE ? Dans le premier chapitre, nous avons fait l'historique de notre démarche fondée sur l'utilisation des différentes solutions adaptées à la construction de systèmes experts en pathologie végétale. Nous voici maintenant devant un nouveau problème de classification et de détermination dans le domaine de la systématique. Au départ, nous avions à notre disposition un logiciel d'apprentissage automatique de règles de décision à partir d'exemples : KATE [Manago & Conruyt, 1989]. Si nous savions comment opérer avec les exemples (par induction), l'utilisation de cet outil supposait préalablement réglées deux questions importantes : 1) Quelles descriptions traiter ? 2) Comment les acquérir ? Une troisième difficulté a été identifiée lors de résultats expérimentaux dans une application de détermination d'objets militaires [Manago, 1991]. En présence d'observations incomplètes (dues au camouflage par exemple), le système expert engendré par KATE pouvait fournir un diagnostic incertain et ne pas lever l'ambiguïté entre un char et de l'artillerie légère ! Les deux premières questions sont de nature qualitative : la qualité des exemples à apprendre est une caractéristique importante avant leur traitement ; elle dépend du bon déroulement de la procédure de description elle-même. Nous montrerons ce premier aspect de la robustesse de la description dans ce chapitre. Ensuite, nous relierons la troisième question à la robustesse de la consultation face aux valeurs manquantes ou réponses «inconnu». Nous verrons dans cette thèse comment nous sommes parvenus à répondre à ces différentes questions sur la robustesse. Mais, auparavant, nous allons étudier ses différents aspects théoriques et pratiques ainsi que ses diverses interprétations dans la communauté scientifique et parmi les utilisateurs. 50 Chapitre 2 2.1 Aspects théoriques 2.1.1 La robustesse statistique L’étude statistique d’une base d’exemples vise à produire un résumé d’un fichier de centaines exemples décrits par des dizaines de variables. Ce résumé prend la forme d’un arbre dont chaque nœud correspond à une partie des exemples ayant les mêmes valeurs pour certaines variables. De même qu’un histogramme est une image qui résume un fichier uni-colonne, un arbre est avant tout une image résumée d’un fichier multi-colonnes correspondant à des variables n’ayant qu’un petit nombre de valeurs [Crémilleux, 1991]. Le processus par lequel on synthétise les exemples est appelé induction. Pour résumer l’information, les systèmes d’apprentissage inductif recherchent des régularités dans les données d’observation initiales en utilisant des critères numériques issus des statistiques (χ 2, critère de Gini, entropie de Shannon, etc.), ce qui permet de prendre des choix décisifs pour partitionner les exemples. La séparation est censée avoir une signification statistique, c'est-à-dire qu’elle ne découle pas simplement du hasard [Gascuel & Carraux, 1992]. Le principe de construction des arbres de décision est expliqué au chapitre 7. L’objectif des statisticiens est d’utiliser ces arbres comme un moyen efficace de prédire le classement de nouvelles observations avec un taux minimal d’erreurs. C’est le pouvoir prédictif de l’arbre qui détermine sa robustesse statistique dans ce contexte [Breiman et al., 1984]. Une recherche de Mingers sur des données empiriques [Mingers, 1989] aboutit à la conclusion que ce n’est pas tant le choix de la mesure qui importe mais plutôt celui de l’élagage de l’arbre final. Ainsi, le programme CART extrait le meilleur sous-arbre en utilisant soit un critère d’élagage pour les grosses bases d’exemples, soit une validation croisée lorsqu’il y a peu d’exemples [Gomes, 1992]. La robustesse statistique suppose néanmoins certaines hypothèses probabilistes posées a priori de manière à pouvoir estimer la reproductibilité des résultats de classement des nouvelles observations : ◊ la représentativité de la base d’exemples nécessite de considérer la fréquence d’apparition des exemples dans la population, les cas rares n’ayant pas le même poids statistique que les cas “typiques”1, ◊ l’échantillonnage se fait de manière aléatoire en suivant un modèle de distribution de la population étudiée. 1 Pour une explication des différents sens du terme “typique”, on peut se référer à [Lebbe, 1991]. Qu'est-ce que la robustesse ? 51 2.1.2 Le formalisme mathématique de description La conception d’outils informatiques adaptés aux problèmes des biologistes nécessite à la fois l’utilisation de techniques en statistiques, en analyse de données, en intelligence artificielle, en ergonomie et en psychologie cognitive. Le sujet se situant à la frontière de ces différents domaines, il est important de présenter formellement les problèmes tels qu’ils se posent aux biologistes de manière à pouvoir faire comprendre leur nature aux différentes communautés amenées à les résoudre. Le langage mathématique est ainsi le dénominateur commun permettant une meilleure communication entre les personnes concernées et se trouve par conséquence être un facteur important de la robustesse des solutions apportées. C’est pourquoi le chapitre 5 expose le formalisme mathématique de description des sujets étudiés au MNHN, ce même formalisme étant ensuite exploité dans le chapitre 7 pour la description des algorithmes de traitement des exemples. 2.1.3 Combiner du numérique et du symbolique L'approche numérique qui est utilisée dans le traitement permet de discriminer efficacement un grand nombre d'exemples tout en tenant compte des petites variations dans les descriptions. Elle permet aussi de détecter un type de bruit particulier ou deux exemples portent la même description tout en n'appartenant pas à la même classe : on a alors à faire à une ambiguïté totale, ce qui laisse supposer à l'utilisateur que les mêmes causes ne produisent pas les mêmes effets. Or, la mise en évidence d'un tel “clash” (Crémilleux, 1991) peut faire réagir l'expert : il peut s'apercevoir qu'il a oublié de décrire un caractère discriminant entre les deux exemples (désambiguation). L'approche symbolique permet de représenter des connaissances complexes en indiquant les dépendances entre objets, attributs et valeurs ainsi que des règles de cohérence pour chaque description. Elle donne aussi la possibilité d'introduire des connaissances complémentaires aux exemples pour traiter certains bruits (voir plus loin) [Manago, 1988]. En les explicitant, l'apprentissage symbolique fournit des explications justifiées par la présence de connaissances non fortuites [Kodratoff, 1991]. L'intégration des deux approches améliore la robustesse globale du système. 52 Chapitre 2 2.2 Aspects pratiques Nous avons déjà donné une définition de la robustesse que nous qualifions d’empirique car basée sur les pratiques des utilisateurs : c'est l'ensemble des facteurs qualitatifs qui améliore l'acquisition des connaissances sur le domaine ou encore permet d'éliminer certaines faiblesses liées à l'utilisation des outils. 2.2.1 Les facteurs qualitatifs 2.2.1.1 Fiabilité Dans le cadre de la validation des systèmes experts en pathologie des plantes à l'INRA, nous avons évalué la fiabilité des résultats d’identification lorsque les programmes sont mis dans les conditions normales d'utilisation, c'est-à-dire entre les mains des techniciens et des agriculteurs qui n'ont pas la même manière d'observer que l'expert. Dans le cadre de l'apprentissage, nous avons constaté que la fiabilité des résultats dépendait surtout de la qualité des données en entrée (§ 1.3.4). Nous nous sommes alors attaqués en priorité à la robustesse de l'acquisition des connaissances, c'est-à-dire non pas à celle des règles élaborées par méthode d'élicitation comme pour les systèmes experts de première génération, mais à celle des données initiales sur lesquelles va s'opérer l'induction : on suppose que le traitement qui suivra, s'il est bien justifié, donnera des règles et des résultats fiables par rapport aux données robustes. Les données en entrée sont de deux sortes : les premières sont des connaissances observables et générales sur le domaine, représentées dans le modèle descriptif. Les secondes sont des connaissances observées spécifiques, correspondant aux exemples d'apprentissage. Cette distinction au niveau des descriptions est fondamentale pour évaluer leur fiabilité. 2.2.1.2 Compréhension Pour obtenir des données robustes, il est nécessaire de bien comprendre le domaine. Ceci est d'abord vrai au niveau de la compréhension entre l'expert et le cogniticien ; le fait que ce dernier ait une compétence ou une sensibilité sur le domaine facilite grandement le dialogue. Mais surtout, comme les utilisateurs qui identifient des échantillons ont des niveaux de connaissance très variés sur le sujet, la phase de modélisation pour acquérir l'observable est un travail d'équipe essentiel entre l'expert et le cogniticien. Le but est de réfléchir sur les aspects terminologiques afin de trouver une structure de description des composants du Qu'est-ce que la robustesse ? 53 domaine qui soit cohérente, bien comprise et bien interprétée par les utilisateurs ciblés. Il s’agit d’une chasse aux ambiguïtés de toute nature. L'adaptation au niveau de compréhension de l'utilisateur est un facteur important de la robustesse. Par exemple, pour que des douaniers utilisent efficacement un système expert d'identification des espèces menacées d'extinction, il leur faut un guide d'observation et un vocabulaire adapté pour se familiariser avec les critères souvent pointus de discrimination entre deux espèces (l'une protégée par la convention de Washington et l'autre non). Ces personnes “naïves” par rapport à l'observation utiliseront d'autant mieux le questionnaire de saisie des descriptions que celui-ci est bien structuré, des dessins explicatifs illustrant le vocabulaire spécialisé. 2.2.1.3 Précision La précision intervient dans le degré de finesse du processus de classification et/ou d'identification. C'est pourquoi il convient de fixer des limites au niveau des détails de description à fournir au niveau de l'observable. Les descriptions détaillées dépendent des techniques d'observation possibles au moment de l'identification. Par exemple, pour reconnaître des espèces d'Hydraires, il peut être avantageux d'utiliser les possibilités d'observation du microscope à balayage électronique si les utilisateurs ont accès à ce type de matériel.. Cela donne la possibilité d'introduire des caractères internes de différentiation des nématocystes (capsules urticantes) dans le modèle descriptif. Mais on peut aussi se contenter des formes extérieures de ces mêmes composants qui ne nécessitent qu'une observation au microscope optique (au plus fort grossissement toutefois). Le choix est un compromis opérationnel qui dépend des objectifs de la description et des moyens disponibles pour l'observation. La précision est aussi un facteur que l'on peut rapprocher de la justesse des descriptions observées. Ces dernières doivent représenter fidèlement la réalité des échantillons au moment de leur saisie dans le questionnaire. 2.2.1.4 Exhaustivité Une fois fixés les objectifs, l'exhaustivité des caractères mis en jeu dans le modèle descriptif est alors très importante. Nous pouvons alors cerner le problème observable, nous assurer de sa complétude par rapport au domaine qui a été bien délimité, et ainsi répertorier les valeurs admissibles dans le questionnaire. L'exhaustivité au niveau de l'observable implique de fournir à l'expert une certaine souplesse d'expression, avec un langage de représentation des connaissances suffisamment puissant : logique multi-valuée, avec variables (ordre 1), taxonomie de valeurs, démons entre objets du modèle, etc.. Pour les utilisateurs, le langage est néanmoins rendu transparent au niveau syntaxique par 54 Chapitre 2 une interface de saisie conviviale. En outre, il est bon de favoriser l'expression sémantique des caractères, leur interdépendance, le choix judicieux des valeurs possibles par rapport à la signification de l'attribut (monosémie des caractères). L'exhaustivité doit se concrétiser aussi au niveau des descriptions observées qui devraient être complètes par rapport à l'échantillon disponible. Par exemple, il est bon d'indiquer à l'utilisateur d'éviter les idées préconçues sur le diagnostic de l'échantillon : il s'agit d'un biais qui le polarise sur la description des symptômes correspondants. La règle serait d'éviter que l'utilisateur décrive ce qu'il cherche plutôt que ce qu'il peut voir sur la plante ! 2.2.1.5 Cohérence Notre objectif est d'assurer une certaine cohérence du modèle descriptif au niveau de la définition du statut des caractères (“objet-attribut-valeur”), ainsi que dans celle des relations entre les objets observables (objets de type composant, point-de-vue, spécialisant). Ce facteur oblige l'expert à plus de rigueur et de rationalité dans sa manière de structurer son modèle descriptif (par exemple en appliquant la règle de définir les objets du plus général au plus précis). Une fois ce travail accompli, une autre cohérence intervient en phase d'acquisition des exemples à apprendre : c'est celle de l'ajustement de l'observé par rapport à l'observable. Elle permet d'éviter les oublis éventuels non perçus lors du remplissage du questionnaire. En effet, lorsqu'il s'agit de passer de l'observable à l'observé (le modèle descriptif servant de moule à la constitution d'un questionnaire “guide d'observation”), tous les caractères (objets et attributs) seront passés en revue lors d'une consultation pour que l'utilisateur puisse affirmer soit leur présence (ou absence), soit le fait que l'on ne peut pas les renseigner (réponse «inconnu»). Au départ de la description, chaque caractère est sans statut (présent, absent ou inconnu). La vérification des oublis doit intervenir à la fin lorsque l'utilisateur indique qu'il a fini sa description : elle est appliquée pour assurer la cohérence de l'utilisateur vis-à-vis de ses réponses (différence entre l'oubli et l'inconnu). 2.2.1.6 Redondance Ensuite, nous mentionnerons le rôle de la redondance dans la représentation de la diversité de l'observé. En effet, pour nos classifications biologiques, l'exception a autant d'importance que le cas général pour découvrir et caractériser le continuum entre les Espèces. Le cas particulier n'est pas un biais à éviter mais plutôt une richesse à représenter dans les descriptions. Pour une classe donnée, nous souhaiterons acquérir sa couverture la plus large possible en nombre d'exemples. Cela correspond à la vision extensive de la définition d'une classe ou encore définition d'un concept du point de vue des exemples [Smith & Qu'est-ce que la robustesse ? 55 Medin, 1981]. L'objectif est donc de multiplier le nombre de descriptions d'une même classe même si elles se ressemblent fortement. Cette manière de procéder n'est pas superflue du fait de la variabilité naturelle observée au niveau des spécimens. 2.2.1.7 Mise à jour Comme il n'est pas possible pratiquement de tout prévoir dès le départ dans le modèle descriptif, la mise à jour des connaissances est un facteur de robustesse à prendre en compte obligatoirement. Par exemple, des nouvelles maladies apparaissent tous les ans en pathologie végétale ou encore une maladie déjà répertoriée montre des symptômes différents une certaine année. Le but est de savoir maintenir la base d'exemples en fonction des modifications apportées dans le modèle. Ce facteur est à relier au critère plus global d'incrémentalité temporelle (voir plus loin). Il donne tout son sens à la robustesse empirique dont la nature évolutive est fondée sur la découverte et l'interactivité avec l'expert. De son coté, la robustesse statistique se concentre plus sur les conditions de la reproductibilité des résultats de classification. Ces deux aspects de la robustesse ne sont pas incompatibles. Néanmoins, la représentativité des données n'est pas un critère applicable dans le domaine de la systématique : nous avons affaire à relativement peu de données par classe (en nombre d'individus) par rapport au nombre de variables possibles : chaque individu est complexe à décrire. Dans ce contexte, la manière de les décrire est sujette à de multiples révisions. Les modifications à apporter font suite à la procédure de validation des connaissances apprises. Elle intervient aussi bien après le traitement des données qu'au moment de l'aller-retour entre la définition du modèle descriptif et la saisie des exemples dans le questionnaire. La robustesse empirique procède de manière cyclique à l'aide de la mise à jour et va dans la direction d'une plus grande précision des résultats. Ce principe est de plus en plus à l'ordre du jour des recherches en apprentissage et en raisonnement à partir de cas [Utgoff, 1989], [Aamodt, 1989]. 2.2.1.8 Ergonomie Citons encore l'ergonomie qui est tout ce qui facilite l'utilisation des outils (modèle descriptif, questionnaire, système expert) et rend la consultation plus agréable. Par exemple, la convivialité doit faciliter la communication entre la machine et l'utilisateur. L'interactivité est l'ensemble des fonctionnalités et des performances du système informatique qui permet la réalisation d'une tâche sans perturber le processus mental que l'utilisateur suit pour l'accomplir. C'est aussi 56 Chapitre 2 la capacité de l'utilisateur d'interrompre le raisonnement en cours et de garder le contrôle sur la machine [Bove & Rhodes, 1990]. Le but de la convivialité est d'obtenir un outil simple d'emploi. Cela peut être accompli grâce aux possibilités hypermédia (hypertexte, image, son, vidéo) du Macintosch ainsi que de programmes comme HyperCard avec son langage HyperTalk [Apple, 1988]. Ces outils permettent de représenter la connaissance de manière visuelle, chaque nœud ou objet du modèle étant symbolisé par une carte qui peut recevoir une image ou un dessin expliquant le concept et des boutons pour se déplacer vers d'autres objets. L'utilisateur n'a qu'à pointer sur l'objet désiré et cliquer pour y aller, ce qui est très naturel. Un intérêt est par exemple d'utiliser une palette de couleurs ou des dessins à la place du choix des valeurs (les mots) elles-mêmes par l'utilisateur. Il n'a plus qu'à cliquer sur la représentation visuelle au lieu d'interpréter le nom associé, ce qui peut provoquer des erreurs de description. Néanmoins, l'ergonomie ne se résume pas seulement à employer des outils conviviaux (point de vue statique). Il faut savoir les utiliser à bon escient, organiser la connaissance pour satisfaire à l'objectif d'interactivité (point de vue dynamique). Par exemple, les nœuds sont reliés entre eux au sein d'une hiérarchie arborescente à explorer qui n'est pas un réseau sémantique multidirectionnel. La navigation est ainsi orientée par la volonté pédagogique de l'expert de guider l'observation selon un ordre bien établi (du général au particulier). Il pourra très facilement rajouter des explications ainsi que des messages d'aide à l'observation à l'aide de boutons (quoi faire, comment faire, mise en garde avant une action, alerte après, etc.) pour éduquer l'utilisateur. Rada et Barlow (1989) ont gagé sur l'avenir de “l'expertexte” qui mixe les deux technologies des systèmes experts et de l'hypertexte. Nous y ajouterons simplement la technologie multimédia pour ses capacités ergonomiques et éducatives [Hooper, 1990]. Dans ce travail, nous juxtaposerons toutefois les deux approches sans les mélanger : nous utiliserons l'hypertexte avec HyperQuest dans le cadre de l'acquisition des descriptions en amont de la phase d'apprentissage. Le système expert engendré par KATE est un programme écrit en C et sa consultation aura lieu dans cet environnement. Les deux modules sont bien séparés. Ces deux applications communiquent leurs connaissances par l'intermédiaire de fichiers ASCII (modèle descriptif et exemples). Leur véritable intégration sera envisagée à la suite de cette thèse à l'aide des “Apple Events” qui autorisent la communication plus facilement entre les applications. Qu'est-ce que la robustesse ? 57 2.2.1.9 Tolérance aux bruits Enfin, nous mentionnerons le facteur de robustesse qui nous parait le plus important : la tolérance aux bruits. Dans INSTIL, il y avait deux problèmes attachés au bruit : la détection et le traitement. Pour le premier aspect, les différentes sortes de bruit ont été identifiées et répertoriées au niveau des trois phases de l'acquisition des connaissances : collecte et observation, description, diagnostic. La classification de la figure 2.2 en donne un résumé (voir plus loin). Pour le second aspect, une bonne partie des bruits des différents maillons de la chaîne a pu être traitée avant la phase d'apprentissage afin d'obtenir des exemples de qualité. Les moyens à mettre en œuvre pour minimiser ces bruits «de terrain» sont décrits dans [Conruyt & Piaton, 1987]. Néanmoins, d'autres bruits plus «abstraits» sont par exemple la difficulté d'observation d'un caractère, son polymorphisme, son coût, la fiabilité du diagnostic, la tolérance d'une coupure autour d'un seuil d'une variable numérique, l'importance d'un caractère comme critère de classification. Ils nécessitent une représentation symbolique explicite dans les exemples pour leur traitement [Manago & Kodratoff, 1987]. Ce travail a été réalisé en introduisant des propriétés supplémentaires dans la définition des attributs [Manago, 1988], [Conruyt & Lesaffre, 1988] : ◊ Confiance Ce paramètre définit simplement le coefficient de vraisemblance d'une information. Sa valeur sera “faible” si l'attribut est difficile à observer. Les attributs ayant un faible degré de confiance sont utilisés le plus tard possible durant la construction de l'arbre de décision. ◊ Recouvrement Lorsque des valeurs se recouvrent, comme par exemple, [couleur tache (recouvrement (brun beige) (brun noir))], la sélection des exemples à un nœud de l'arbre de décision pour le test “couleur(tache)” tiendra compte de la polymorphie des couleurs : pour la valeur “noir”, on retiendra pour construire le sous-arbre tous les exemples dont la couleur de la tache est aussi “brun”. ◊ Coût Ce paramètre indique le prix à payer (financier, temps d'attente, etc.) pour obtenir la réponse au test demandé. Par exemple, faire un test de laboratoire (isolement bactérien, viral) possède un coût élevé. On essayera donc d'abord les tests bon marché pour construire les règles de décision. ◊ Fiabilité Il s'agit ici de la confiance que l'expert accorde au diagnostic d'un exemple. C'est une mesure de la qualité d'un exemple en terme de 58 Chapitre 2 diagnostic. Ce test a pu être utilisé par Main pour privilégier l'utilisation d'exemples fiables lors de la sélection du noyau. ◊ Tolérance Les seuils numériques ont un caractère tranché qui ne convient pas toujours à la précision des mesures effectuées. On peut donc considérer qu'il existe une marge d'erreur possible autour de ce seuil qu'il est intéressant de spécifier. La tolérance est donc une mesure de recouvrement lorsque l'on compare des valeurs numériques. Elle peut être explicitée de manière relative ou absolue. ◊ Priorité Ce dernier paramètre permet à l'expert d'influer sur la classification. Les caractères n'ont pas tous la même importance de son point de vue pour caractériser une classe ou un diagnostic. La prise en compte de la priorité de certains caractères peut se faire par exemple au niveau du calcul d'entropie pour classer les attributs ayant le même gain d'information au nœud courant. Tous ces paramètres sont des connaissances symboliques supplémentaires qui tiennent compte des spécificités du domaine. Elles doivent être explicitées dans le modèle descriptif en fonction des besoins exprimés par l'expert. 2.2.1.10 Adaptation aux besoins exprimés En ce qui concerne l'application des éponges marines au MNHN (§ 1.5.3), l'introduction de ces paramètres pour traiter ces différentes sortes de bruit n'est pas demandée. En particulier, il n'y a pas d'a priori sur la priorité d'un caractère pour construire une classification. Il faut dire que dans cette application, l'expert est à la fois professeur et descripteur, il n'y a pas une grande variabilité d'utilisateurs potentiels du système expert. La demande est plutôt celle d'adapter des outils d’aide à la classification au travail quotidien des biologistes systématiciens. Ainsi, nous devrons nous adapter à la démarche naturelle de l'expert qui est la suivante : 1) observer et se familiariser, 2) représenter les observations => établir des descriptions, 3) bâtir des hypothèses à partir des descriptions (pré-classées ou non) => construire des règles de classification, 4) les éprouver par de nouveaux faits => conduire une détermination. Nous chercherons donc à construire une méthode d’acquisition des connaissances qui s’appuie sur différents savoir-faire tels que les capacités Qu'est-ce que la robustesse ? 59 d’observation, de description et de raisonnement des systématiciens et qui tienne compte à la fois de leurs objectifs et de la nature des données à analyser. Notre démarche n’est pas de choisir un modèle théorique et trouver une application qui permette de le valider. Au contraire, à partir d'objectifs précis et avec une application bien délimitée possédant certaines difficultés de représentation, nous voulons concevoir un modèle de résolution qui s’adapte au domaine. Un objectif est par exemple la découverte de règles pertinentes pour la classification en appliquant la méthode expérimentale fondée sur l'observation intime des faits. Ces règles n'auront pas forcément de signification statistique si l'on considère que la base d'exemples à traiter n'est pas stochastique mais bien déterministe [Mingers, 1987]. En effet, il est souvent difficile dans les applications en biologie d’émettre les hypothèses simplificatrices suivantes : ◊ ◊ ◊ ◊ ◊ ◊ complétude de l’ensemble d’apprentissage, tirage aléatoire des données, monotonie de la connaissance, nature de données (certaines ou probabilistes), existence d’une théorie du domaine complète et formalisée, indépendance des variables entre elles, etc.. Partant de ce constat, nous allons définir des critères d'appréciation de la robustesse qui englobent les facteurs qualitatifs précédents. 2.2.2 Les critères globaux d'appréciation Dans notre approche de la robustesse, nous ne sommes définitivement pas dans un univers caractérisé par les probabilités et les lois a priori, mais bien dans un monde de diversité, d’incomplétude et où l’exception pourrait bien être la seule règle valide. Dans ce contexte, les critères d'appréciation de la robustesse seront les suivants : 2.2.2.1 Applicabilité à des domaines réels Comme nous l'avons dit plus haut, le but est de résoudre un problème concret posé en biologie et de s'adapter au domaine étudié. Le but n'est pas de valider un modèle théorique déjà établi. Le rôle de l'informaticien est de suivre la démarche naturelle de l'expert. Ce critère fait appel aux facteurs de compréhension du domaine et d'adaptation aux besoins exprimés par les utilisateurs. 2.2.2.2 Un langage de représentation puissant 60 Chapitre 2 Le langage de représentation permet à l’expert de pouvoir exprimer toute sa connaissance dans les descriptions. Il ne doit pas être contraint par certaines limitations arbitraires de la logique (des propositions par exemple). Elles l'empêcheraient par exemple de représenter des objets de même type présents conjointement chez un même individu (voir la logique d'itération au § 4.4.6). De plus, cette représentation doit être transparente pour l’expert, la syntaxe de représentation ne le concernant pas, des outils conviviaux et interactifs d’aide à la description doivent l’assister dans cette tâche. L'exhaustivité et l'ergonomie sont les deux facteurs importants. 2.2.2.3 Facilité de mise en oeuvre par les utilisateurs S'adapter au domaine, c'est prendre en compte les besoins des utilisateurs qui ne sont pas des informaticiens. Il faut donc leur fournir des outils suffisamment simples d'accès, attrayants et conviviaux. Il convient de faire attention à la complexité des paramètres d’apprentissage introduits que l’utilisateur final aura du mal à maîtriser. Ceux-ci peuvent être des choix de configuration d'interface, des choix de différentes mesures statistiques pour le traitement, des possibilités de pondération (coût de description d'un objet), des contraintes, des seuils... En fait, il est nécessaire de bien observer les attitudes et comportements des utilisateurs finaux du système afin de leur fournir des outils dédiés à leurs besoins. Il faut se prémunir contre la tendance naturelle des informaticiens à vouloir fabriquer des outils “génériques” applicables dans n’importe quel domaine et que l'on appelle ensuite des “usines à gaz” du fait de leur difficulté de mise en œuvre et de leur inadéquation au problème posé. Chaque domaine possède sa propre spécificité à laquelle l'outil devra s'adapter s’il veut réellement répondre à une attente. Inversement, le système ne doit pas être trop “spécifique” afin de ne pas devoir développer un nouvel algorithme à chaque fois que l’on change d’application. L'ergonomie, l'adaptation aux besoins exprimés et la compréhension sont les trois facteurs qui facilitent l'utilisation du système. 2.2.2.4 Incrémentalité C'est une caractéristique fondamentale trop souvent négligée par les concepteurs car dépendant du choix des algorithmes retenus dans le système. Il existe deux définitions de l’incrémentalité dans la littérature. La première, dite spatiale, vise à traiter des bases de données de taille importante dans lesquelles il existe déjà une structure d’arbre de décision A. Sans qu’il soit nécessaire de reconstruire un arbre complet T à partir de tous les cas, ID5R [Utgoff, 1989] prend en compte l’ancien arbre A et à partir des nouveaux exemples, modifie la structure de manière à obtenir le même T. La seconde définition, dite temporelle, part du principe que l’apprentissage est un processus continu et donc les connaissances doivent évoluer à chaque fois qu’un nouvel ensemble d’expériences est réalisé. Qu'est-ce que la robustesse ? 61 En conséquence, le traitement des exemples doit s’effectuer par lot et les connaissances produites à partir des ensembles précédents sont modifiées pour prendre en considération les nouveaux exemples. Cette manière de procéder permet de pallier l’incomplétude de l’ensemble des exemples de départ. La prise en compte de ces deux définitions dans la conception du système rend possible son application sur des bases de données importantes et/ou incomplètes. L'incrémentalité temporelle est celle que nous souhaitons appliquer. Elle fait appel aux facteurs de mise à jour, de cohérence (entre le modèle descriptif et les données) et de redondance (nouvelles données par rapport aux anciennes). 2.3 Discussion Généralement, on dit qu'un système d’apprentissage est “robuste” s’il permet d’obtenir des résultats satisfaisants par rapport à un ensemble d'hypothèses de départ. Cette définition très générale de la robustesse laisse la porte ouverte à de multiples interprétations. L’appréciation du résultat est laissée au jugement de n’importe quel type d’utilisateur, qu’il soit informaticien, statisticien, biologiste, expert ou béotien. Or, les idées de ces différents utilisateurs sur la question ne sont pas toujours partagées, loin s’en faut ! 2.3.1 L'informaticien Pour lui, un système robuste traite des données pour obtenir des résultats aussi bons que ceux de l'expert. S'il possède une formation académique basée sur les mathématiques, il supposera que les exemples ont été recueillis convenablement selon un protocole d'échantillonnage précis. S'il est chercheur, le traitement est alors considéré comme la partie “noble” de l’acquisition des connaissances pour valider des solutions algorithmiques, parce que la phase de saisie des données est peu valorisable du point de vue scientifique. Il est d’ailleurs révélateur de constater que de son point de vue, le terme de validation des connaissances est dépendant du traitement qui a été préalablement effectué sur les données. Nous verrons dans notre approche que ce terme s'applique bien avant dans la phase d’acquisition des exemples à l’aide d’un questionnaire (la phase d'observation et de description est la véritable phase d'apprentissage pour le biologiste). 2.3.2 Le statisticien Il argumenterait qu’un système robuste est doué d’une forte capacité de prédiction sur des exemples qu’il n’a pas vus, ce qui est le critère de qualité d’un bon système d’apprentissage. Il présuppose que les exemples à apprendre sont distribués selon une loi normale et correspondent à un modèle mathématique établi à partir des hypothèses suivantes : ◊ équi-possibilité des valeurs de chaque variable, 62 Chapitre 2 ◊ indépendance des événements liés aux attributs (variables explicatives), ◊ tirage au hasard des individus de l'échantillon étudié (échantillonnage aléatoire) dans une population nombreuse et déterminée. Certains statisticiens ont néanmoins une vision plus dynamique de la robustesse : pour Tomassone (1991), la Statistique est un guide pour toute démarche scientifique expérimentale. Elle demande de s'impliquer totalement dans l'analyse d'un monde “réel” incomplet et flou pour aboutir à sa représentation “virtuelle” obligatoirement schématique. Appliquer la Statistique requiert un assemblage ad hoc de trois composants : un Objectif, un Modèle, des Données. L'objectif O correspond à un ensemble de questions auxquelles la Statistique est capable de répondre. Pour O fixé (ex : classification de plusieurs populations en classes homogènes), il existe au moins un modèle M qui permet de l'atteindre. Par modèle M, il faut comprendre deux éléments : une technique de sélection des données D (échantillonnage, plan d'expérience) et une technique de traitement des données quand on les aura acquises. Simultanément, un modèle M a besoin de certaines données D pour pouvoir être appliqué. Pour un utilisateur, il est indispensable de savoir quelles données D sont nécessaires pour utiliser M, et donc pour atteindre l'objectif O qu'il s'est fixé. Pour ces statisticiens, la robustesse liée à l'acceptation du résultat découle d'un va-et-vient entre M et D autour de O fixé (figure 2.1). Cette robustesse est provisoire tant que des éléments nouveaux ne viennent pas contredire le résultat précédemment acquis. monde réel problème objectif questions connaissances initiales modèle données représentation virtuelle du monde réel échantillonnage traitement hypothèses résultats vérification validation expert Fig. 2.1 : La robustesse dans la démarche statistique [Tomassone, 1991] 63 Qu'est-ce que la robustesse ? 2.3.3 Le biologiste Sa démarche est basée sur l'expérimentation. Conscient des problèmes liés à l’acquisition des connaissances sur du matériel vivant, il pourra dire qu’un système robuste est capable de minimiser les erreurs dues aux “bruits” dans l'acquisition des exemples. Lors du projet INSTIL, en tant qu'étudiants en agronomie, nous avons pu détecter différentes sources de bruits lors des phases de collecte, d'observation et de description des échantillons de plants de tomate malades. La figure 2.2 en donne une classification pratique : Sources du bruit n Polymorphisme naturel Rep Collecte atio erv Obs rés ent Représentativité n Connaissances écrites Spatiale,Temporelle Variabilité tion ni Défi De (U scri tili pti sat on eu r) Interprétation visuelle Technique d'observation atio ert) (Exp Observable Observé Objets du modèle descriptif Questionnaire Ergonomie Présentation Classe (diagnostic) Oubli Manquants Incomplétude En trop Non pertinents Inappropriés Ambigus Erreur Incomplète Subjectivité Difficulté d'interprétation Ex : toucher Orthographe Erreurs Descriptions Mesures Oubli Exemple à apprendre Caractère à renseigner Non-réponse de l'utilisateur Polymorphisme conceptuel Contexte d'observation Vocabulaire inadapté Trop spécialisé Normes Coût d'observation Attente de mise en culture Microscope Mal positionnés Question mal posée Seuillage Dessin explicatif Structure en objets Statut Objet-Attribut-Valeur Fig. 2.2 : Classification des différents types de bruits dans INSTIL L’un de ces bruits est la non-réponse de l’utilisateur à une question posée par le système expert lors de la procédure de détermination (en fait, la réponse est 64 Chapitre 2 «inconnu», ce qui n’apporte aucune information). Par exemple, le technicien agricole vient consulter le système de diagnostic TOM avec uniquement les fruits sur lesquels il observe des taches. Si l'arbre de décision engendré par KATE a choisi un premier critère de discrimination sur le feuillage (avez-vous observé des taches sur feuilles ?) et que l'utilisateur n'a pu faire l'observation demandée, le diagnostic obtenu risque d'être incertain. Étant confrontés à ce problème lors du démarrage de cette thèse, le terme de robustesse est apparu à ce moment pour y faire face. Il nous fallait trouver une solution pour résoudre ce bruit dans les consultations. Nous illustrerons la robustesse face aux valeurs manquantes en phase de consultation sur l’application des éponges marines (voir chapitre 7). Notons que cette expression a été utilisée par d'autres chercheurs en psychologie cognitive pour illustrer le même problème [Sutcliffe, 1986]. 2.3.4 Le béotien Il considérera le système robuste s'il “résiste” aux inexactitudes lors des réponses au questionnaire et qu'il arrive à résoudre son problème correctement tout en lui fournissant quelques explications. C’est son degré de satisfaction qui détermine son appréciation. Lorsque l'utilisateur est “naïf par rapport à l'observation”, c'est-à-dire qu'il ne connaît pas la démarche d'expertise et n'a pas forcément une bonne pratique d'observation, il sera séduit par les capacités à la fois pédagogiques et de vulgarisation du système, se considérant peut-être luimême comme un «bruit» pour le bon déroulement du raisonnement du système expert. 2.3.5 L'expert Il auto-référencera la robustesse du système à sa propre manière “intuitive” de traiter les exemples. C’est la validité des conclusions du système qu’il est en mesure d’évaluer. Il s’agit là de son évaluation subjective sur la qualité d’une classification. Sa satisfaction peut être liée à différents facteurs [Niquil, 1993] : ◊ ◊ ◊ ◊ exactitude des règles apprises par rapport aux exemples soumis, présence ou absence souhaitée a priori de certains critères classificatoires, ordre de ces critères dans l’arbre de classification, degré de généralisation, etc.. Pour nous, l’objectif principal pour acquérir un système robuste est d’arriver à faire plus participer l’expert dans le fonctionnement du système car il est le garant de cette robustesse. Généralement, son rôle se borne à la fourniture de l’ensemble des exemples et à la validation des connaissances apprises. Il est effectivement intéressant de le faire intervenir au cours du traitement des exemples pour ajuster des paramètres et modifier le comportement du système. 65 Qu'est-ce que la robustesse ? Mais cela ne suffit pas. Le fonctionnement du système ne peut pas se réduire au simple traitement des données comme s’il s’agissait d’un aboutissement ! Comme pour l'approche statistique [Tomassone, 1991], nous avons bien conscience que l’acquisition des connaissances n’est pas un processus linéaire mais bien itératif et que le traitement n’est qu’un aspect (très marginal au niveau du temps consacré pour l’apprentissage) du fonctionnement global du système. Ce qui est aussi très important, c’est ce qui se passe avant et après le traitement des données afin de mieux maîtriser les variables et les exemples appris. C'est pourquoi nous voulons aller plus loin dans cette thèse dans la formalisation des données en amont du traitement par les logiciels d'apprentissage automatique. Comme l'indique la figure 2.3, nous allons expliciter les connaissances initiales de l'expert au sein d'un modèle de l'observable. Les données observées devront s'y conformer, ce qui permettra d'obtenir des descriptions structurées comparables entres elles et d'atteindre l'autre objectif principal : la robustesse des descriptions. monde réel problème modèle objectif questions connaissances initiales représentation virtuelle du monde réel données échantillonnage traitement modèle descriptif hypothèses résultats vérification validation expert Fig. 2.3 : Comparaison de notre travail avec l'approche statistique Nous nous apercevons donc que la robustesse est une notion toute relative, à manier avec une certaine précaution en fonction des interlocuteurs. Nous ne prétendons donc pas dans cette thèse fabriquer un système robuste de classification et de détermination des objets biologiques : cela est utopique dans un tel domaine. Nous souhaitons simplement apporter une contribution originale à son amélioration. Nous dériverons donc la robustesse au niveau de l'aide apportée par des outils informatiques, conçus de telle manière que l'utilisateur atteigne les objectifs qu'il s'est fixés (classification et/ou détermination) et maîtrise ainsi mieux son sujet d'étude. Il s'agit pour lui d'apprendre des choses nouvelles et utiles par ces outils, mais tout aussi bien sur son domaine que sur sa propre méthode de travail, ce qui contribuera à l'amélioration des connaissances générales. 66 Chapitre 2 2.4 Notre méthode d'acquisition des connaissances L'amélioration de la robustesse passe par la mise au point d'une méthode d'acquisition de connaissances fondée sur l'observation des faits, calquée sur la pratique des biologistes systématiciens. La méthode est en conformité avec la démarche de tout scientifique utilisant le raisonnement “plausible” (l'induction) et l'analogie (le raisonnement par cas) à des fins de classification et détermination d’objets naturels. 2.4.1 Différents types de connaissances à acquérir 2.4.1.1 Connaissances de base (“background knowledge”) Ce sont les connaissances des faits observables du domaine, exprimées dans le modèle descriptif. Elles recensent les objets observables liés entre eux par des relations, ainsi que leurs caractères observables (caractéristiques, propriétés, variables ou attributs) et les différents états possibles de ces caractères (valeurs ou modalités d'attributs). Ces objets permettent de décrire complètement une entité du domaine. Cette étape correspond à l'acquisition du modèle descriptif (phase 1). Le générateur de modèles descriptifs est l'outil interactif qui permet de créer, d'éditer et de visualiser les objets graphiquement sous la forme d'un arbre. Cet outil de modélisation de l’observable est un composant d’HyperQuestTM (voir le chapitre 6, § 6.3). L'acteur principal de cette étape est l'expert du domaine assisté ou non du cogniticien. 2.4.1.2 Connaissances de faits observés Ce sont des descriptions individuelles issues du remplissage d'un questionnaire hypertexte qui lui-même a été engendré automatiquement à partir du modèle descriptif (phase 2). Ces faits constituent les données en entrée du système d'induction ou de raisonnement par cas (phase 3). Deux types de faits observés sont à considérer selon les objectifs du traitement : ◊ Classification : Le cas (ou exemple) est l'association d’une description d’objets et de l’identification de la classe à laquelle appartient l'individu possédant ces objets. La constitution d'une base de cas permet d’atteindre Qu'est-ce que la robustesse ? 67 la caractérisation (définition) des différentes classes d’affectation prédéfinies, et par suite un système expert de détermination. ◊ Détermination : L'observation est une description d'objets sans classement associé à l'individu (le nom de la classe). Une observation permet de consulter le système pour déterminer l'individu. Ici, le nom de la classe est une sortie, alors que c'est une entrée dans le cas de la classification. L'outil qui permet de créer, d'éditer et de visualiser les cas et les observations s'appelle le questionnaire. Il est construit automatiquement à partir du module générateur de questionnaire interactif hypertexte de l'outil HyperQuestTM (voir chapitre 6, § 6.4). Cet outil exploite les connaissances du modèle descriptif de manière à les présenter simplement sous forme de cartes et de naviguer entre elles pour renseigner les différents objets. Ce questionnaire est personnalisable et permet d'intégrer des images pour illustrer les objets à décrire. Il permet aussi de rappeler des cas pour les éditer. Le questionnaire produit en sortie une description qui est soit un cas alimentant la base de cas pour la classification, soit une observation brute à soumettre au système pour identification. Les acteurs de cette phase sont aussi bien l’expert du domaine que les futurs utilisateurs du système de détermination. 2.4.1.3 Connaissances produites ◊ Classification : ce sont les règles ou l’arbre de décision induits automatiquement par généralisation des exemples et traduisant une conjonction de propriétés à satisfaire pour appartenir à la classe nommée en conclusion de la règle ou à la feuille de l’arbre (phase 3), ◊ Détermination : la connaissance recherchée est l'identification de la classe d’appartenance de l’individu à déterminer. Toutes ces connaissances sont différentes par nature et s'acquièrent dans cet ordre prédéterminé afin de fabriquer le système de classification et de détermination. Cela signifie que ces étapes doivent s’enchaîner en commençant par la phase 1 qui est indépendante des deux autres. La phase 2 dépend de l'élaboration de la phase 1 et la phase 3 dépend à la fois des deux autres (de la sorte, les trois phases ont en commun le modèle descriptif). 68 Chapitre 2 2.4.2 Deux types de traitements des exemples pour la classification et la détermination En fonction des deux objectifs de l'expérimentation (classification ou détermination), deux types de traitement des exemples sont proposés. Pour la classification, qui concerne surtout l'expert, une caractérisation des classes peut être obtenue par généralisation des exemples (apprentissage) et présentée sous forme d'un arbre de décision. L'expert peut être amené à tester l'incidence de différents critères de généralisation (pondération, efficacité, coût) en comparant les différents arbres ainsi engendrés. La technologie de l'induction nous paraît la mieux adaptée à l'objectif de classification. Pour la détermination, qui concerne aussi bien l'expert que le biologiste, l'objectif est d'extraire progressivement de la base d'exemples ceux qui ne sont pas en contradiction avec la nouvelle observation à déterminer, jusqu'à se confiner dans une classe. La technologie du raisonnement par cas nous semble préférable à l'induction en ce qui concerne l'objectif d'identification (voir le chapitre 7). On a représenté sur le schéma de la figure 2.4 ci-dessous les trois étapes permettant d'acquérir les connaissances descriptives ainsi que les deux types de traitement utilisés : 69 Acquisition du modèle (phase 1) Qu'est-ce que la robustesse ? Expert Cogniticien générateur de modèle descriptif HYPERQUEST Modèle descriptif générateur de questionnaire Acquisition des Cas (phase 2) Expert Questionnaire Spécimen Identification observateur Description Description naturelle Traitement des connaissances (phase 3) Cas ( = exemple ) Base de cas Observation raisonnement par cas CASEWORK Induction KATE Expert Arbre de décision Spécimen observateur Caractérisation des classes Classification Système expert de détermination Validation Identification (par système statique) Acteur Résultat Module de traitement Fonctionnalité Identification (par système dynamique) Itinéraire courant Itinéraire facultatif Fig. 2.4 : Synoptique de notre méthode d’acquisition des connaissances Deux types de détermination sont possibles avec le système actuel : ❶ Le premier utilise un système statique de détermination. KATE fabrique un arbre de décision ou des règles de décision, ce qui forme une généralisation des cas dont on ne retient que les critères de détermination les plus efficaces (système figé et maximalement discriminant). ❷ Le second est un système expert dynamique de détermination. CaseWork raisonne directement à partir des cas en appliquant un principe d'analogie pour retrouver ceux les plus semblables à l'observation courante (système dynamique). 70 Chapitre 2 En effet, la phase de consultation du système met en jeu toutes les connaissances décrites préalablement et permet la détermination d'un nouveau cas. Elle intervient après que la phase d'induction par KATE ait engendré un arbre de décision pour le système statique alors que pour le système dynamique, les deux phases sont imbriquées au cours de la détermination : l'utilisateur guide la discrimination en fonction des réponses qu'il donne (ou ne peut pas donner) au cours de la consultation. Le questionnaire du domaine peut intervenir en phase de consultation pour le système dynamique. Il permet à l'utilisateur de ne pas être obligé de suivre un chemin de l'arbre de décision avec les questions posées relatives à chaque nœud. L'utilisateur fournit dans un premier temps sa propre description de ce qu'il observe avec le questionnaire, puis cette description est interprétée par CaseWork qui pose des questions complémentaires s'il n'aboutit pas à un résultat certain. Le questionnaire favorise donc la maîtrise par l’utilisateur de la consultation du système de détermination dynamique. De plus, si cette consultation peut être validée par l’expert, la description issue du questionnaire et la détermination de l’expert constituent un nouveau cas qui peut être introduit dans la base initiale. 2.4.3 La phase de validation des connaissances apprises Une dernière phase mérite d’être mentionnée : il s’agit de la validation. Elle permet de détecter des incohérences, que ce soit avec l’arbre de décision de KATE ou bien avec le système de détermination de CaseWork. Quand un résultat s’avère invalide, trois causes peuvent être invoquées : 1 - Une description a été mal renseignée (valeur erronée par exemple), 2 - La base de cas est incomplète, non représentative de la variété réelle, 3 - Le modèle descriptif est incomplet (critère discriminant oublié). Les deux premiers problèmes sont ponctuels et peuvent être résolus simplement en retrouvant la description erronée ou en rajoutant un exemple. Le dernier problème relève de la structure même du modèle descriptif et a pour conséquence la remise en question non seulement de la base de cas mais encore la mise à jour du questionnaire afin d’assurer sa cohérence avec le modèle descriptif. Dans la méthode mise au point, toute la chaîne des outils allant de la construction du modèle descriptif au traitement des exemples par induction et raisonnement par cas est complète. Néanmoins, la phase d’itération sur le modèle à modifier n’est pas prise en compte au niveau des anciens cas. En effet, si un nouveau questionnaire est généré prenant en compte de nouveaux objets, attributs ou valeurs possibles, la modification de la structure du modèle ne remet pas à jour Qu'est-ce que la robustesse ? 71 l’ancienne base de cas. Ceux-ci doivent être complétés manuellement avec un traitement de texte pour être conformes au nouveau modèle. 72 Chapitre 2 III TERMINOLOGIE ET CONCEPTS MIS EN ŒUVRE Notre objectif principal est la mise au point de systèmes de détermination (classification et identification) prenant en compte de façon naturelle la diversité, l'interdépendance et la variabilité des caractères observés, et s'accommodant autant que possible des données manquantes si fréquentes dans les domaines biologiques. De cet objectif découle la révision apportée des concepts fondamentaux intervenant dans la classification des êtres vivants (au sens large). Quiconque s'est intéressé aux productions de la nature, dont les êtres vivants sont les représentants les plus évidents, a perçu que, sous une apparence de diversité et de complexité extrême, se cachait en fait une sorte de plan d'ensemble, une régularité, une logique, un déterminisme, etc.. Les naturalistes sont arrivés à la notion de “système de la nature”, d'un ordre global dans lequel les différents individus se trouvent virtuellement regroupés en “classes”, et ceci à différents niveaux ou “catégories” (Espèces, Genres, Familles, etc.). Dans ce chapitre, nous exposons notre point de vue sur les concepts utilisés en biologie par rapport à ceux utilisés chez une grande majorité de mathématiciens et philosophes afin de permettre une meilleure compréhension du domaine biologique qui nous intéresse ici. 3.1 Extension et compréhension 3.1.1 L’extension Deux points de vue de l'extension sont possibles selon le sujet d'étude et l'observateur : 3.1.1.1 Point de vue du philosophe et du mathématicien Ces personnes s'intéressent aux produits de l'activité humaine, c’est pourquoi l'extension est une notion dépendant de la compréhension : on parle d'extension d'un concept par rapport à sa compréhension. Le sujet d'étude est la compréhension (ou intension) à partir de laquelle on cherche une extension. 74 Chapitre 3 Pour ces observateurs, l'extension est la sphère plus ou moins grande des êtres ou des espèces auxquels s'applique une condition exprimée par un ou plusieurs attributs. La pensée organise spontanément les choses en classes (ou concepts), d'après leurs caractères communs, et forme les classes les plus étendues en éliminant de plus en plus de caractères. Aussi dit-on que plus l'extension croît, plus la compréhension se restreint. Par exemple, tant que l'on ne connaissait pas de cygnes noirs, le concept cygne comportait dans sa compréhension l'attribut nécessaire blanc. Son extension comportait tous les cygnes connus (qui étaient tous blancs). Après la découverte de cygnes noirs, le concept cygne a perdu en compréhension l'attribut blanc (qui n'était plus nécessaire désormais) et a gagné en extension les nouveaux cygnes découverts. L'extension peut être qualifiée de psychique ou abstraite car elle dépend d'une définition préalable des classes dans un univers de description donné (PClass et PConcepts [Sutcliffe, 1993]). Dans ce contexte, il peut arriver que l'extension d'un concept soit vide : le concept de licorne par exemple [Sowa, 1984]. En résumé, la classe traduit l'extension d'un concept, elle n'existe que lorsqu'elle a été explicitée : elle constitue l'ensemble des individus qui satisfont à la condition exprimée par son concept dans un univers de description donné. 3.1.1.2 Point du vue des biologistes et des naturalistes Ces personnes s'intéressent plus aux produits de la nature, la compréhension n'a d'intérêt que si elle traduit une extension concrète. Ainsi l'extension peut être une notion indépendante de la compréhension. Le sujet d'étude est l'extension et l'on considère que les classes préexistent avant même de recevoir une définition. Par exemple, un chien qui passe dans la rue existe indépendamment de sa définition. Chaque classe correspond à une certaine extension (ou couverture) concrète et naturelle dont on veut tirer un enseignement (une compréhension des classes naturelles). Dans un premier temps, on se contente donc de décrire l'extension ou le contenu (les individus) de la classe sous forme de descriptions. Le fait de décrire est déjà en lui-même un enseignement pour le descripteur (celui qui décrit). Il est amené à interpréter des observations multiples et hétérogènes afin de produire des généralisations “de bas niveau” (en ne mesurant que certaines propriétés et en en ignorant d'autres) supposées exactes et dignes de confiance. Les descriptions doivent tenir compte de la diversité biologique exprimée par la couverture de la classe1. 1 Chaque objet de l'extension possède un statut avec différentes modalités que le descripteur peut être amené à envisager : ces informations sont... Terminologie et concepts mis en œuvre 75 On s'efforcera donc de traduire cette diversité dans les descriptions afin de recueillir toute la richesse et la diversité des individus du domaine biologique bien délimité. En effet, chaque individu décrit est un élément représentatif de la classe et a pour extension lui-même : notre approche privilégie ainsi la multiplication des descriptions d'individus appartenant à une même classe (avec des valeurs comprises dans un intervalle de doute ou d'imprécision) plutôt qu'une seule description de “concept” dont l'extension est l'ensemble des individus qui vérifient l'intervalle de variation des valeurs de la description. Cette deuxième approche est celle adoptée par [Vignes, 1991]. La formalisation sous forme d'objets symboliques [Diday, 1987] présentée au chapitre 5 met aussi en lumière cette nuance. Ainsi comprises, les descriptions forment une base de travail exhaustive pour le traitement et constituent déjà un résultat important pour la transmission du savoir humain. Dans un deuxième temps, le descripteur cherche à mieux comprendre ses descriptions individuelles. 3.1.2 La compréhension La compréhension ou l’intension est l'ensemble des caractères ou propriétés contenus dans un concept et qui permettent de le définir [Arnauld et Nicole, 1662]. Ainsi vertébré a comme compréhension : animal qui a des vertèbres et comme extension Mammifères, Oiseaux, Batraciens, Reptiles, Poissons. On remarque évolutives : elles changent au fur et à mesure que l'univers dans lequel elles sont utilisées se modifie, ce qui entraine des problèmes de cohérence. certaines ou incertaines : il peut résider ou non un doute quant à la vérité des informations. Ce doute peut être dû à un manque de confiance dans la source de l'information ou au fait que celle-ci est difficilement accessible à la vérification. valides ou périmées : elles n'ont pas toujours de valeurs universelles et peuvent être remises en question dans l'avenir. typiques ou exceptionnelles : chaque objet, qu'il soit considéré comme central ou marginal, porte sa propre originalité et fait ainsi partie intégrante de la couverture de la classe. A ce titre, les cas exceptionnels ont autant d'importance que les cas typiques en biologie, c'est pourquoi les biologistes affirment que dans la nature, l'exception est la règle. Il ne s'agit donc pas de les supprimer ! complètes ou incomplètes : la connaissance disponible sur un objet est généralement incomplète parce qu'elle est implicite et donc généralement oubliée dans la représentation, ou encore parce qu'elle n'est pas encore connue ou qu'elle est difficile à transmettre. significatives ou fictives : des informations ont un sens pour expliciter des règles de connaissances alors que d'autres ne sont utilisées que pour structurer le domaine de description. 76 Chapitre 3 qu'un concept s'étend à d'autant plus d'êtres qu'il réunit moins de caractères comme le montre la figure 3.1 : Nombre d'individus couverts par l'extension Nombre de critères de l'intension Fig. 3.1 : Rapport entre l'extension et l'intension Ainsi la compréhension et l'extension sont en raison inverse l'une de l'autre. Animal a une extension plus stricte et une intension plus forte que Vivant, Vertébré a plus de compréhension qu'Animal et Mammifère plus que Vertébré. D'après cette définition de la compréhension, l'intension est la partie signifiante du concept. Elle énonce certaines propriétés (supposées vraies) permettant de valider des connaissances du domaine. Elle exprime les conditions nécessaires et/ou suffisantes2 d'appartenance d'un individu au concept. Néanmoins, la question de savoir si l'intension prime sur l'extension est un problème philosophique qui dépend de l'observateur et de ses préoccupations. En effet, l'intension précède-t-elle l'extension dans la vision que possède l'utilisateur du domaine étudié ? Il semble naturel que la réponse soit oui pour un psychologue et un mathématicien : la définition ne peut être faite que par l'homme ! Ce à quoi le naturaliste objectera en posant la question suivante : estce que les animaux qui existaient au secondaire et que l'on a appelés dinosaures par la suite faisaient partie d'une classe ? Est-ce qu'ils existaient avant que le concept n'apparaisse ? Il semble aussi que oui ! Nous sommes ainsi en présence d'une dualité de point de vue résumée par la figure 3.2 : 2 Une définition n’est pas forcément nécessaire et suffisante du fait que des personnes différentes ont rarement la même compréhension d’un même phénomène naturel : voir plus loin les définitions des intensions minimales, strictes et généralisées des concepts au § 3.2.2. 77 Terminologie et concepts mis en œuvre Naturaliste extension Classes intension Descriptions Concepts Mathématicien Fig. 3.2 : Mathématiciens et Naturalistes, deux points de vue différents des concepts Ce schéma un peu caricatural demande un approfondissement dans l'étude des raisonnements différents qu'employent ces deux catégories de personnes : Le mathématicien a l'habitude d'utiliser un raisonnement démonstratif basé sur une valeur de vérité d'une propriété, exprimé par des règles rigoureuses et clarifiées par la logique formelle. Ce type de raisonnement est sûr, à l'abri des controverses et définitif. Inversement, le naturaliste émet des hypothèses qu'il justifie par un raisonnement plausible. Ce dernier est hasardeux, il peut être controversé et il est provisoire [Pólya, 1958]. Néanmoins, il est capable de conduire à des connaissances essentiellement nouvelles sur le monde qui nous entoure. C'est pourquoi ces deux types de raisonnement ne sont pas contradictoires comme pourrait le laisser penser le schéma ci-dessus : ils se complètent. Dans le raisonnement rigoureux, l'essentiel est de distinguer une preuve d'une présomption, une démonstration valable d'une tentative qui a échoué : c'est le savoir démontrer du mathématicien qui prouve la validité de ses concepts. Dans le raisonnement plausible, l'essentiel est de distinguer une présomption d'une autre, l'une plus raisonnable que l'autre : c'est le savoir pressentir du naturaliste qui suggère des classes fiables. Le mathématicien doit donc être capable de deviner une règle ou un théorème mathématique avant de le démontrer, de même que le naturaliste devrait être capable de prouver le bien fondé de ses règles de classification. Il est donc faux d’opposer la démarche d’un naturaliste à celle d’un mathématicien comme voudrait le laisser paraître notre monde contemporain assoiffé de démonstrations et de certitudes. Dans cette thèse, nous nous plaçons d'abord du point de vue du naturaliste qui considère l'extension comme son sujet d'étude. Le premier principe de la robustesse est effectivement de bien comprendre le domaine étudié, c'est-à-dire ici d’adopter la terminologie des systématiciens. 78 Chapitre 3 Partant d'une classe (ensemble d'individus) dont le contenu (l'extension) est sa couverture, le naturaliste observe et crée le nom de cette classe puis... la définit (en intension) afin de créer le concept associé. Cette démarche constate d'abord la classe avant de procéder à une conceptualisation de ses individus. Certains mathématiciens comme Euler (1707-1783) ou Laplace (1749-1827) prônent ce point de vue basé sur l'observation. Néanmoins, contrairement au naturaliste pour qui l'observation est le critère le plus élevé (la vérification effectuée dans de nombreux cas bien choisis est la seule méthode de confirmation d'une loi hypothétique dans les sciences naturelles), le mathématicien va plus loin dans son domaine en affirmant que si nombreuses que puissent être des vérifications expérimentales, elles ne suffisent pas à démontrer que la loi supposée est vraie. Cette bifurcation de point de vue tient donc à la nature du domaine étudié (réfutabilité des hypothèses) : la récurrence et la périodicité ne se rencontrent pas dans la nature ! Ensuite, nous nous plaçons du point de vue de l'informaticien dont l'approche est située entre la démonstration et l'observation. L'informaticien agit au niveau des descriptions : il donne la possibilité avec les outils qu'il développe de normaliser les observations des naturalistes, élevées au rang de descriptions comparables entre elles car utilisant le même schéma de représentation. C’est à partir de ces descriptions que nous allons bâtir des hypothèses “plausibles” par induction et que nous allons les vérifier grâce à l’identification de nouvelles observations. Par les outils que l’informaticien fournit, nous serons capables d’appliquer la méthode hypothético-déductive chère à Popper [Popper, 1973], [Popper, 1978] : “La méthode de la Science est une méthode de conjectures audacieuses et de tentatives ingénieuses et sévères pour réfuter celles-ci”. Ces descriptions sont un premier niveau d'abstraction : elles constituent le terme commun des deux approches et c'est pourquoi nous les traitons à part au chapitre 4 de cette thèse. 3.2 Classe et concepts 3.2.1 La classe C’est l'ensemble ou groupe d'individus ... (stop, c'est le point de vue du naturaliste) ... possédant tous un ou plusieurs caractères communs et étant les seuls dans ce cas (c'est le point de vue du philosophe ou du mathématicien). Terminologie et concepts mis en œuvre 79 3.2.1.1 Point de vue des mathématiciens Pour eux comme pour certains philosophes (suivant en cela la tradition d’Aristote), la classe dérive du concept : il s’agit d’un ensemble d’objets qui satisfont une condition prédéfinie nécessaire et suffisante (dans un univers de discours donné) et qui forme ainsi l’extension d’un concept [Sutcliffe, 1993]. Cette sorte de classe peut être nommée classe conceptuelle [Niquil, 1993]. Il existe toutefois une partie des mathématiques qui considère les objets sous leur aspect extensif et que l’on peut qualifier d’expérimentale car basée sur l’induction [Euler, 1747]. Néanmoins, la partie la plus importante des mathématiques “modernes” (la théorie des ensembles, la logique formelle, les prédicats) s'intéresse plutôt à leur aspect compréhensif [Frege, 1893] et à la déduction. Le but de cette dernière approche est de calculer l'extension du concept C en définissant une application ac de l'ensemble des individus observés Ω --> [vrai,faux] qui à chaque individu w de Ω fait correspondre son appartenance au concept C ou non. ac : Ω → [0,1] w a 1 si w ∈ C, 0 sinon Les individus sont ainsi baptisés instances du concept s'ils appartiennent au concept3. Comme nous l’avons déjà expliqué plus haut (§ 3.1.1.1), l’extension dépend de la compréhension pour certains alors qu’elle est le point de départ pour découvrir une intension pour d’autres. Donc, pour le mathématicien, la classe n'existe que si elle est explicitée en intension (dans le monde des idées) selon un certain point de vue et correspond à un concept. Elle peut être qualifiée d'abstraite. Prenons garde néanmoins au terme d'existence : une définition n'entraine pas l'existence de la chose définie, les objets mathématiques étant donnés au départ par postulat (les fonctions, les nombres, le cercle, etc.) [Bourbaki, 1974]. 3.2.1.2 Point de vue des systématiciens On trouve la définition suivante de la classe [Larousse] : (Histoire naturelle) : “Bien que, comme tous les groupes plus vastes que l'espèce, la classe soit un concept en partie abstrait (un niveau taxonomique), on donne à de nombreuses classes une définition tout à fait précise, correspondant au fait que les êtres de cette classe possèdent tous un 3 Une partie plus récente des mathématiques s'intéresse au degré d'appartenance “flou” des individus à des concepts [Zadeh, 1965] : un élément appartient plus ou moins à un ensemble. En ce qui concerne les spécimens, le naturaliste n'est pas habitué à jongler avec l'incertitude et l'imprécision pour attribuer un individu à un concept, il finit par trancher. Cette caractéristique étant naturelle en biologie, nous n'avons pas étudié plus avant la théorie des possibilités [Dubois & Prade, 1987] pour l'appliquer dans la représentation des connaissances du domaine. 80 Chapitre 3 certain caractère et sont seuls à le posséder. Les Insectes ont tous un thorax formé de trois anneaux et portant trois paires de pattes articulées ; les Oiseaux ont tous des plumes ; les Monocotylédones ont toutes un embryon à un seul cotylédon ; les Céphalopodes ont tous des tentacules, etc..” Remarque : Les systématiciens employent le mot Classe (ou Classis) avec une majuscule pour désigner l’une des catégories de la systématique comprise entre les Ordres (Ordo) et les Embranchements (Phylum). Quoi que traitant ici de systématique, nous n’emploierons jamais le mot classe dans ce sens strict. Nous l’employerons plutôt comme synonyme de groupe (ou taxon) à un certain niveau hiérarchique [Larousse] : (Histoire naturelle) : “Subdivision usitée en classification zoologique ou botanique et dont on ne peut pas ou on ne veut pas préciser la valeur hiérarchique: Classe, Ordre, Genre, Embranchement, etc..” La première définition précédente de la classe, si on l’étend aux différents taxons de la classification linnéenne, donne comme exemples des caractères propres ce qui a été appelé “caractères dominateurs”, entièrement caractéristiques d’une classe. Dans les faits, il est rare qu’une classe puisse être ainsi caractérisée par un caractère unique. La diversité biologique que l'on constate dans la nature fait que la définition d’une classe regroupe généralement la conjonction de plusieurs caractères. La définition semble de plus considérer le terme de concept comme synonyme de classe, ce qui ne correspond pas à notre analyse (voir plus bas). Pour ces raisons, nous considérons que cette définition ne correspond pas toujours à la réalité des choses. Par le terme équivalent de concept, elles apparaissent comme des intensions, des preuves sûres, démontrables au sens mathématique et pas du tout comme des hypothèses plausibles, vraisemblables et à vérifier par de nouveaux faits. Ces définitions ne sont pas sans rappeler le grand débat sur “l’espèce” [Cuénot, 1936] entre fixistes tels G. Cuvier qui croient à la permanence des espèces qui ont été créées séparément et ne passent pas de l’une à l’autre, et transformistes tels C. Darwin qui ne sont pas surpris par la variabilité de l’espèce, les variants étant des espèces naissantes sous l’effet de cause extérieures qu’ils subissent. Il est alors impossible de définir les espèces dans cet état d’équilibre momentané. Le point de vue pratique exige néanmoins l’établissement d’une hiérarchie utilisable, ce que permet la systématique moderne avec un matériel écologique et géographique beaucoup plus abondant et des outils d’expérimentation plus performants (microscopes, ordinateurs, etc.). Une révision de la notion de classe en systématique s'avère donc nécessaire de manière à ce que nous distinguions bien la différence conceptuelle que l’on veut Terminologie et concepts mis en œuvre 81 apporter à la classe par rapport aux concepts : pour le naturaliste, la classe existe en elle-même indépendamment de l'homme qui la décrit, elle est explicitée par son extension, elle est donc concrète, naturelle et unique. Intuitivement, on conçoit bien [Matile et al., 1987] que si l’espèce humaine (la classe des hommes) disparaissait, les autres espèces continueraient à exister dans leur intégrité, indépendamment de leurs observateurs, tout comme certaines d'entre elles ont existé avant l’apparition de l’homme. Chaque classe naturelle peut être : 1) nommée, 2) définie par son contenu, 3) caractérisée par des traits propres, 4) typifiée, 5) et enfin conceptualisée. 1) On peut s'y référer sans ambiguïté par son nom ; c'est un principe, magistralement arrêté par Linné (1735), que la découverte de toute nouvelle classe doit être accompagnée par son auteur de la fixation d'un nom ; cette dénomination doit respecter des règles de nomenclature bien définies (binôme spécifique, loi de priorité, etc.), en particulier pour s'assurer de son unicité. 2) La classe peut être définie concrètement par son contenu (sa population), représentée par exemple par l'énumération des individus connus qui composent son effectif. De façon plus pragmatique, on se contente d'un échantillon “représentatif” de la population, qui doit illustrer au mieux la variabilité naturellement présente. Il se peut qu’il y ait parmi les descriptions d’individus, à la fois des descriptions d’un seul spécimen (un individu réel) et des descriptions synthétiques de plusieurs spécimens (individu virtuel). Il est clair que l’on ne maîtrise pas toujours dans les descriptions livresques anciennes la nature des individus décrits (réels ou virtuels). Nous affirmons par contre que l’on devrait s’employer à utiliser le mot description uniquement pour décrire des spécimens et non pas décrire une population de spécimens. Par abus de langage, on appelera ces dernières des “descriptions” synthétiques (ou virtuelles) alors qu’elles ont déjà un certain niveau d’abstraction correspondant à des définitions. La distinction entre description et définition permet de montrer la différence entre l'imprécision attachée aux valeurs descriptives d'un spécimen (une disjonction de valeurs pour un seul état possible) et la variation associée aux valeurs d'un ensemble de spécimens (une conjonction de valeurs décrivant plusieurs états). Dans la pratique de la systématique au MNHN, il sera préférable dans l'avenir de stocker des descriptions correspondant à des spécimens de manière à perdre le moins d'information possible sur les espèces ou autres classes produites. Idéalement, les descriptions devront être complètes et exhaustives ! 82 Chapitre 3 3) La classe peut être caractérisée, de façon aussi discriminante que possible, par un ensemble de caractères propres à la distinguer des autres classes, dont l'énoncé constitue sa diagnose. A côté de la diagnose, volontairement limitée à un minimum de caractères distinctifs, on fait aussi souvent figurer une définition, formée par la synthèse des descriptions des individus qui la composent ; cette synthèse, aussi appelée intension de la classe, comporte un certain degré de généralisation4. Cette généralisation permet de ne pas exclure d'emblée de nouveaux individus qui ne sont pas exactement semblables à ceux déjà admis, mais néanmoins conformes à la diagnose. L’extension originale de la classe est potentiellement élargie à de nouveaux individus de la classe. L’extension de la classe (sa couverture du point de vue du naturaliste) généralise sa population à tous les individus qui sont ou pourront être reconnus comme lui appartenant. L’extension de la classe, ainsi comprise, est élargie à l’extension du concept : tout individu appartenant à la classe est un représentant du concept (une instance). De la sorte, on tend à rendre équivalentes les définitions en intension et en extension, comme cela semble souhaitable. 4) La classe possède un type, que son auteur a choisi pour la représenter de façon unique et définitive. Le type est, à la limite, le seul individu dont l'appartenance à la classe soit certaine. Il faut remarquer que, paradoxalement, il n'est pas attendu que le type soit particulièrement représentatif ; Il est même fréquent qu'il apparaisse par la suite comme extrême par rapport à la gamme de variabilité intra-classe. Il ne faut donc pas confondre le type, purement arbitraire, avec un quelconque prototype ou individu “moyen”. Une classe en tant que concept biologique n'existe que si un type lui a été associé. L'Homo sapiens est la seule espèce qui ne possède pas de type. 5) Enfin la classe peut être envisagée comme un concept une fois qu’elle a été définie, chacun de ses individus apparaissant à la fois comme un représentant du concept et comme un élément objectif (faisant partie de la couverture) ou subjectif (conforme à la définition) de la classe. Il est aussi important de prendre en compte le fait que les classes sont organisées selon une hiérarchie à multiples niveaux, à laquelle on peut appliquer le nom de “système” (au sens de la systématique, non de la systémique). Chaque niveau peut avoir une signification biologique, mais celle-ci n'est clairement établie que dans le cas du niveau “espèce”, pour lequel on peut se référer à un critère biologique (l'interfécondité). Aucun individu ne peut appartenir à plus d'une classe d'un niveau donné (mais l'exception est tout à fait admise en cas de doute sur l'appartenance à l'une ou l'autre de classes voisines). Et tous les individus appartenant à une classe sont des représentants équivalents de son concept. De la 4 La généralisation s'effectue lorsqu'il s'agit de passer d'une disjonction de descriptions imprécises sur des spécimens d'une classe à une définition réelle qui est la conjonction d'attributs exprimant la variation au sein d'un concept. Terminologie et concepts mis en œuvre 83 sorte, on ne peut parler de “degré d'appartenance flou”, sauf à traduire par là un état incomplet des connaissances et non pas une ambiguïté de fait. 3.2.2 Les concepts Les concepts sont considérés du point de vue de la compréhension qui désigne l'ensemble des caractères exprimés par le mot, et du point de vue de l'extension, qui désigne l'ensemble des individus auxquels le mot s'applique. Un concept est une abstraction intellectuelle de parties du monde. C'est une idée abstraite (obtenue en se bornant à considérer certains caractères des objets, à l'exclusion d'autres caractères pourtant perceptibles) et générale (étendant les caractères ainsi considérés à tous les objets qui les possèdent). Tout concept se caractérise par sa compréhension (ensemble des caractères considérés dans les objets) et par son extension (ensemble des objets auxquels il peut s'appliquer). Compréhension et extension forment donc l'aspect logique du concept une fois élaboré (LConcept). Abstraction et généralisation sont les deux opérations psychologiques par lesquelles il s'élabore (PConcept) [Sutcliffe, 1993]. Chez Aristote, on trouve la notion de logoi pour le concept avec deux points de vues : l'un considère les sujets que regroupe la classe correspondante au concept et l'autre est le prédicat qui est la condition d'appartenance d'un sujet à la classe du concept. Il y a trois façons (logoi) de se référer à un concept : 1) par son contenu (l'être), 2) par sa définition (l'essence), 3) par son nom (terme univoque qui abrège la définition). 1) L'être est le référent ou l'extension du concept. C'est l'ensemble des instances du concept (les choses existantes auxquelles le concept s'applique). 2) L'essence est la condition d'appartenance à la classe. On donne un prédicat ou définition (une condition) ce qui crée le concept en intension (le nom n'est pas forcément présent). 3) Le nom du concept est un abrégé ultime de la définition. Il peut faire intervenir la propriété la plus caractéristique pour le résumer (par exemple, la rouille du blé5, un réfrigérateur, etc.). Néanmoins, le nom est avant tout une commodité, un code de reconnaissance, qui est difficilement utilisable si l'on fait abstraction de sa définition complète (ambiguité). En sciences naturelles, le nom est donné en latin pour lui conférer un caractère universel. 5 Maladie fongique caractérisée par des taches de couleur rouille. 84 Chapitre 3 3.2.2.1 Du point de vue naturaliste Dans notre approche des concepts, nous affirmons leur existence dès lors que nous fixons : 1) une classe, 2) une définition associée à la classe, 3) un univers de discours (un contexte), 4) une capacité d'abstraction intellectuelle plus ou moins élaborée. 1) Pour les biologistes, la classe est une vérité ; elle a une existence naturelle avant même d'être définie en tant que concept. 2) Pour le concept, ce n'est pas le nom qui est important mais bien l'intension qui lui est attribuée (sa définition). Un concept est délimité par la définition de la classe correspondante. 3) La définition de la classe dépend du contexte : il peut exister en effet différents concepts associés à une même classe. Par exemple, le concept de “grand homme” dépend de l'univers de discours pour sa définition. S'agit-il du sens donné à la taille d'un individu ou bien celui de sa réputation ? Napoléon et le Charles de Gaulle ne seraient pas classifiés de la même manière selon le contexte choisi ! Autre exemple : la classe des tomates ne correspond pas à la même définition chez un botaniste et chez un cuisinier : c'est un fruit pour le premier et un légume pour le second. 4) La définition de la classe dépend du niveau de perception. Par exemple, le concept de dinosaures pour un paléontologiste correspond à un stade d'évolution dans la lignée des reptiles alors que le concept de dinosaures pour un enfant peut correspondre à celui d'un monstre sympathique, personnage de dessin animé. Pour un univers de discours donné et un certain niveau de perception, un concept associé à la classe peut être déterminé. Un concept est déterminé lorsque l’on explicite les caractères compréhensifs du concept [Petit-Robert, 1994]. A chaque concept, on peut associer plusieurs niveaux de définitions de la classe considérée : ◊ Le premier correspond à une intension généralisée qui donne des conditions nécessaires d'appartenance à la classe. Ces conditions forment une généralisation6 de la classe et la définition obtenue ne se trouve donc 6 La généralisation peut être définie comme un ajout d’observable à de l’observé. En effet, le résultat de la généralisation englobe des situations intermédiaires observables, non effectivement observées. 85 Terminologie et concepts mis en œuvre que partiellement observée. Tous les individus qui y appartiennent satisfont à cette définition. Néanmoins, il peut y avoir des individus qui n'appartiennent pas à la classe mais qui sont conformes à la définition. Il est nécessaire toutefois d'y attacher un critère de sélectivité (par exemple : couvrir le moins possible de contre-exemples) pour ne pas produire de définition triviale si peu discriminante qu’elle couvre trop de contreexemples. Ainsi, dans le domaine des Hyalonema, si nous retenions uniquement la couleur blanchâtre du corps de l’éponge pour caractériser une classe, nous serions sûrs de couvrir aussi toutes les autres classes. Autrement dit, il est recherché une intension généralisée aussi discriminante que possible. ◊ Le second niveau est une intension stricte exprimant des conditions nécessaires et suffisantes d'appartenance à la classe : tout individu qui satisfait à l'intension stricte de la classe en fait partie. Inversement, tout individu qui appartient à la classe satisfait à son intension stricte. Chacune des conditions exprime une régularité intra-classe. L’intension stricte est une intension observée, elle est issue d’une simple reformulation7 de la disjonction des descriptions réelles de la classe (par factorisation, par la prise en compte de connaissances de fond, etc.). Elle est absolue car elle ne fait pas intervenir les définitions des autres classes. Remarque : cette intension stricte est surtout valable pour des objets manufacturés qui sont des productions humaines et dont la reproductibilité des descriptions est assurée : ce sont des clones. Par exemple, une nouvelle pièce de 1F à identifier est conforme à l'intension stricte d'une pièce de 1F. En ce qui concerne les objets biologiques que nous avons à traiter, l'intension stricte n'est pas intéressante car son extension se limite aux individus qui ont servi à la définir, ou à leurs clones ; or les individus naturels diffèrent toujours les uns des autres par quelque caractère objectif (polymorphie). Autre remarque : l’intension stricte peut être généralisante si les exemples sont imprécisément décrits. En donnant la valeur “argentée ou dorée” à la couleur d’une pièce de 10 F, la disjonction d’imprécision peut être interprêtée comme une conjonction de variation au moment de l’identification d’une autre pièce, ce qui ne permettrait pas de toujours déterminer une pièce de 20 cts. Il y a là un problème crucial rencontré lors de l’interprétation des descriptions au moment de l’apprentissage, ce qui 7 Une reformulation est une formule comprimée de l’intension par réécriture, elle est plus dense, mais elle contient la même information (iso-intension) et le même contenu au niveau de l’extension (iso-extension). Un exemple de reformulation est le suivant : si (b ∧ d) ⇒ C si (c ∧ d) ⇒ C a = (b ∨ c) (connaissance de fond) } si [d ∧ (b ∨ c)] ⇒ C } si (d ∧ a) ⇒ C 86 Chapitre 3 peut conduire à une intension stricte faussement généralisée. L’intension stricte s’applique donc à des descriptions subjectives dont on ne mesure pas toujours l’origine (imprécision ou variation) ! ◊ A partir de l’intension stricte, nous pouvons dériver une intension réduite ou diagnose stricte qui donne le plus petit jeu de conditions nécessaires et suffisantes d'appartenance à la classe. Chacune de ces conditions correspond à une différence inter-classe. Il faut remarquer que cette caractérisation succinte est relative aux autres définitions de classes que l’on veut comparer pour être en mesure d'évaluer leurs différences : elle n’est pas absolue du fait qu’elle doit être modifiée à chaque fois qu’une nouvelle classe est prise en considération. Il s’agit en effet d’une “connaissance croisée” (différentielle) dont on a retiré tout ce qui est commun avec les autres définitions de classe. La diagnose, issue d’une intension stricte, est une diagnose observée. ◊ le troisième niveau est une intension modale ou typique donnant des conditions suffisantes d’appartenance à la classe. Tout individu (typique) répondant à cette définition “caractéristique” de la classe en fait partie (= modèle de classe). Il peut y avoir néanmoins dans la classe des individus atypiques s’écartant de la définition de cette classe. Pour dériver une intension modale de la classe, on procède de la manière suivante : On commence par ôter les exceptions de la classe (par exemple enlever les autruches de la classe des Oiseaux parce qu’elles ne volent pas). On forme ainsi une sous-classe épurée ne possédant que des individus typiques de la classe. On construit alors une intension stricte de la sous-classe typique, ce qui produit une intension typique de la classe. ◊ Par réduction de l’intension typique par rapport aux autres classes, on obtient une diagnose modale ou typique (on supprime tous les éléments de l’intension modale de la classe qui ne caractérisent pas les autres classes : le résultat est par exemple : les Oiseaux volent). La plupart des “diagnoses” utilisées par les biologistes (surtout les botanistes) sont modales (elles évacuent les exceptions pour gagner en signification) ; elles comportent souvent une part plus ou moins importante de généralisation pour en faciliter la compréhension par le profane. Par exemple, prenons les Orchidées qui est une des Familles la plus importante du règne végétal : de manière générale, elle est caractérisée par l'absence d'albumen dans les graines, la mycotrophie (vie en symbiose avec le mycelium des champignons) et des fleurs entomophiles (attirant les insectes) très zygomorphes (avec un plan de symétrie) [Guignard, 1989]. 87 Terminologie et concepts mis en œuvre 3.2.2.2 Du point de vue mathématique Pour formaliser ce que l'on vient de dire, donnons les définitions suivantes : Soient Ω = {w1 ,...,wn }, l'ensemble des spécimens ou individus observés, Π ⊃ Ω,l'ensemble de tous les individus observables, P(Ω), l'ensemble des parties de la population observée Ω. Soit F, une fonction de représentation de Π --> O, O désignant l'espace d'observation, qui à chaque individu observable ω de Π fait correspondre sa description potentielle y(ω) = δ ∈ Ο : F: Π → Ο a F( ) Soit y, une fonction de représentation de Ω --> ∆, ∆ désignant l'espace de description des individus observables (∆ = F(Π) ⊂ O), qui à chaque individu observé w de Ω fait correspondre sa description d = y(w) ∈ ∆ : y: Ω → ∆ w a y(w) Soit une classe observée C ∈ P(Ω). Pour chacune, on peut associer une définition D = y(C), D ∈ P(∆). En notant b D la fonction d'appartenance à la classe D : bD : ∆ → [0,1] d a 1 si d ∈ D, 0 sinon D représente la somme (ou disjonction) des descriptions observées de chaque individu de la classe : D = ∑d. d ∈ D est aussi appelé un exemple de la classe D, un contre-exemple est donc un élément de ∆\D. On obtient ainsi le schéma de la figure 3.3 présenté dans [Diday, 1993] : aC Ω [0,1] y bD ∆ Fig. 3.3 : Le triangle des fonctions entre individus et leurs descriptions avec la propriété : ∀ w ∈ Ω, a C (w) = b D(y (w)) = b D o y (w) 88 Chapitre 3 Pour résumer le formalisme, on peut présenter le schéma de la figure 3.4 : Π F Ω O ∆ y C D d w y Fig. 3.4 : Schéma du formalisme de modélisation des données Par exemple : si wi = “o” (cf. symbole de la figure 3.5), alors y(wi ) ∈ D1 , si wi = “x” alors y(wi ) ∈ D2 . Le schéma de la figure 3.5 est une illustration des trois niveaux de définition précédents : Une description imprécise atypique ∆ y2 x x x o Une intension généralisée de D1 Une intension modale de D1 x x o x o o Ο x x o y1 ∑ o Une intension Une diagnose stricte de D1 (par rapport à D2 ) généralisée = intension stricte de D1 de D2 (tenant compte de l'imprécision des descriptions) Fig. 3.5 : Les trois intensions de la classe Terminologie et concepts mis en œuvre 89 3.3 Classement et classification 3.3.1 Classer et le classement Classer consiste dans un premier sens à regrouper des individus ou des objets afin de former des classes. Chacune d'elles se voit attribuer un nom (une étiquette). Classer est une action en deux étapes : à partir d'un tas d'individus, on effectue un tri en répartissant les objets selon leurs ressemblances et différences (on établit une partition des objets), puis on étiquette chaque groupe ainsi formé par un nom de code. Il existe un second sens au verbe classer qui est celui de déterminer : assigner la classe à laquelle appartient une chose, un individu. Nous préférerons employer le terme déterminer pour la seconde acception. Le classement, selon les deux sens attribués au verbe classer, permet dans un sens de constituer des regroupements nommés d'objets a priori afin de former des classes concrètes (définies en extension par les objets qu'elles possèdent) et, dans l’autre, à retrouver le nom d'un nouvel individu a posteriori par rapport aux classes déjà formées. Le classement a priori est une démarche exploratoire sur un ensemble d'objets dont on ne perçoit aucune définition en l'état (ou dont la définition n’a pas d’intérêt immédiat). Une personne naïve dans un domaine est capable d'effectuer ce classement. Le classement a posteriori permet l'identification des objets entre eux de manière globale en partant de la classe. Il s'agit d'un processus de comparaison directe des objets entre eux qui ne nécessite pas forcément l'usage de descriptions de ces objets, et moins encore d'une quelconque définition de ces individus. 3.3.2 Classifier et la classification Classifier, c'est conceptualiser des classes, c'est-à-dire les créer par classement, puis les définir, et les nommer éventuellement. Classifier est une des fonctions essentielles de l'intelligence humaine : elle repose sur un plus grand niveau d'expertise que le classement. Cette notion est souvent confondue avec déterminer ou identifier en intelligence artificielle où l'on parle de classifier des observations lorsqu'il s'agit de trouver le nom de la classe auxquels elles se rapportent. En effet, pour certains statisticiens et mathématiciens, la classification veut dire la même chose que le classement a posteriori. La classification, prise dans le sens des systématiciens (“classification des êtres vivants”) est la faculté de former un classement (en partitionnant), puis 90 Chapitre 3 pour un regroupement donné d'individus, de formuler une définition de ce groupe. Le résultat s’appelle une classification. Il s'agit de représenter les caractéristiques de chaque classe : on établit ainsi des classes abstraites définies en intension par des concepts (et non plus par des objets). De plus, la classification cherche à hiérarchiser les classes selon leur degré de généralité afin de former différents niveaux taxonomiques. Comme on l’a déjà vu au chapitre 1, la classification en analyse des données n’est pas nécessairement conceptuelle : aucune définition des classes n’est extraite à partir des données. Dans toute science, il est nécessaire de classifier les phénomènes et les objets que l'on veut étudier et ceci est particulièrement vrai dans les sciences qui étudient les êtres vivants. Une classification vraiment scientifique des végétaux et des animaux doit être naturelle et non artificielle, c'est-à-dire fondée non sur des caractères arbitrairement choisis pour une raison de commodité ou d'utilité quelconque, mais sur les caractères les plus importants du point de vue de la structure anatomique des êtres et de leurs grandes fonctions physiologiques. Les classifications de l'histoire naturelle se proposent d'indiquer le degré de ressemblance et de différence réelle, et non pas apparente et superficielle, de chaque être avec tous les autres. Certains auteurs affirment (d'autres nient) que ces ressemblances sont l'expression d'une parenté généalogique entre les espèces et qu'une bonne classification doit tendre à mettre en évidence la phylogénie des groupes, c'est-à-dire la suite des formes que l'évolution leur a fait parcourir. La classification est la partie noble du classement. Elle consiste à ranger dans un même groupe (une classe au sens du biologiste) et à désigner du même nom des faits, des objets ou des êtres qui possèdent en commun certains caractères. Elle suppose l'analyse, la comparaison, mais plus encore la faculté de faire abstraction des différences individuelles. La formation d'une idée générale est un acte de classification. Cette formation s'appuie sur la capacité à décrire les individus, de les classer et de les nommer avec une étiquette, puis de les définir par une intension : cette capacité est le propre de l'expert du domaine. La figure 3.6 synthétise ce que l'on vient de dire : Acteur Action Moyen Résultat niveau d'expertise enfant répartir tri partition -- naïf classer étiquette classement (classes) -+ expert classifier critères classification (concepts) ++ extension intension Terminologie et concepts mis en œuvre 91 Fig. 3.6 : Schéma de comparaison des termes employés en systématique La classification s’accompagne de la caractérisation des classes (obtenues de manière expérimentale ou artificielle) : elle recherche les critères représentatifs (ou caractéristiques) de la classe (par confirmation des ressemblances intraclasse) et les critères de différenciation (ou de discrimination) des classes (par élimination des différences inter-classe). Elle permet d'expliciter les classes à partir des descriptions d'individus (explicitant elles-mêmes les individus des classes). La classification procède par généralisation inductive des descriptions, elle est une démarche synthétique. Cette synthèse permet de créer des connaissances nouvelles que l'opérateur espère meilleures pour comprendre son domaine. Deux sortes de classification “artificielle” sont évoquées parmi les méthodes d'apprentissage des descriptions qui nous intéressent : 1) La première sorte procède à partir de descriptions d’un échantillon du domaine étudié sans connaissance préalable du nom associé à chacune d'elles. Ces descriptions sont appelées observations en apprentissage automatique car elles ne possèdent pas d'identification associée (on parle aussi d'apprentissage sans professeur). Le but consiste ici à découvrir les classes et/ou les concepts cachés dans les observations. Ce type de démarche classificatoire, classique en analyse des données (méthodes factorielles [Benzecri, 1973], nuées dynamiques [Diday, 1971]), et en taxonomie numérique [Sneath & Sokal, 1973], est aussi appelé catégorisation [Napoli, 1992] ou classification conceptuelle [Fisher, 1985]. Il procède par agrégation des observations selon leurs ressemblances avec certaines mesures de similarité puis caractérisation en interprétant les classes obtenues par un ensemble de caractères propres permettant de définir les concepts associés. Le regroupement conceptuel est le même type de classification dans le secteur de l'intelligence artificielle et qui tient compte en plus de connaissances sur le domaine [Stepp & Michalski, 1986]. 2) La seconde sorte de classification opère à partir d'exemples ou de cas qui sont des descriptions d'individus observés auxquelles l'expert a attribué un nom (une étiquette ou bien encore une identification associée après classement) : là, on connaît le concept à apprendre (la maladie, l’espèce, etc.). Ce type de classification avec professeur (ou supervisé) est encore divisé en deux sortes : Le premier, qualifié de “descendant”, est appelé discrimination à partir d'exemples et procède par segmentation des cas selon leurs différences en fonction de certains critères: fonction coût [Hunt, 1966], gain d'information [Quinlan, 1979], réduction d'impureté [Breiman et al., 1984], etc.. 92 Chapitre 3 Le second utilise une stratégie ascendante guidée par les données dont l'algorithme de l'étoile avec les systèmes AQ [Michalski, 1983] est le représentant le plus typique. Quels que soient les modes de classification, elles ont pour point commun de partir de descriptions d'échantillons (pré-classés ou non) pour représenter les concepts à apprendre. Le schéma de la figure 3.7 synthétise les différentes interprétations des termes que nous adoptons dans cette thèse. En outre, nous affirmons que les descriptions sont issues d’observations concrètes et que par conséquence, nous ne parlerons pas de “descriptions” de concepts au sens de [Lebbe, 1991] et [Vignes, 1991] : nous parlerons plutôt de définitions de (associées à des) concepts. individus observables tri-classement (par observation) c1 c2 ci cn classes concrètes cp ∧ ∧ i1 i2 il individus observés description (par observation formelle) d1 d2 ∨ C1 C2 dl ∨ Cn Ci descriptions concepts abstraits Cp classification (par caractérisation) D1 D2 Dn Di définitions Dp intensionn stricte réduction généralisation diagnose Cn/∑Ci i≠n intensionn généralisée extension encadré : objets d'observation souligné : actions classen généralisée conceptuelle (2 classe concrèten) Fig. 3.7 : Notre conception des différents termes employés dans cette thèse 93 Terminologie et concepts mis en œuvre 3.4 Détermination et identification Comme pour la classification, la détermination peut avoir une double signification opposée : d’une part, on parle de la détermination d’un concept lorsqu’il s’agit de le définir ou de le caractériser (“déterminer un concept” est alors équivalent à “classifier”). D’autre part et de façon plus courante, le mot est employé pour désigner l'action inverse de la classification : c'est une démarche qui permet de déduire l'appartenance d'un individu à une classe en utilisant sa définition en intension : cette démarche est analytique. Dans ce sens, il n'y a pas de détermination possible sans classification préalable. Nous souhaitons bien distinguer les deux aspects inductif et déductif de la démarche scientifique dans cette thèse. C’est pourquoi nous emploierons la détermination dans le sens déductif opposé à la classification inductive. De plus, la détermination ne doit pas être confondue avec l'identification : déterminer permet de trouver le nom de la classe ou le concept associé à la nouvelle observation. Le procédé permettant de passer d'un indéterminé (individu ou spécimen que l'on peut observer et/ou décrire) à un déterminé (indéterminé affecté à une classe d'identification) est nommé détermination. L'identification s'applique plus au domaine de l'extension contrairement à la détermination qui concerne le domaine de l'intension : dans le langage courant, identifier est employé plus souvent pour trouver le nom d'un individu (la plupart du temps un humain), ou un code qui permet de se référer à l'identité de quelque chose. On dit plutôt “identifier un individu” pour dire que l'on a trouvé son identité, plutôt que “déterminer un individu”. Inversement, on parlera de “déterminer la classe d'un individu” lorsque l'on utilisera une définition de son concept. Pour résumer : identification détermination => => nom d'un individu (ex : Lee Oswald) classe d'un individu (ex : Homo sapiens) d'où : détermination d'un individu = identification de sa classe. Alors que la classification est affaire de spécialistes, il est fréquent que la détermination soit conduite par un “béotien” en la matière, comme ce douanier qui doit déterminer s'il a devant lui un animal protégé ou non par la convention de Washington, ou lors d'un recensement écologique où il est nécessaire de distinguer (et de désigner) les différentes espèces en présence. Toute détermination se fait par référence à un corpus de connaissances préexistant, qu'il soit organisé (clef de détermination, système expert, etc.) ou non (livres, connaissance résultant d'un apprentissage plus ou moins empirique). 94 Chapitre 3 Il faut aussi remarquer qu'une détermination ne conduit pas toujours à un résultat certain, du fait d'inexactitudes ou d'imprécisions soit dans les connaissances de référence soit dans la possibilité ou la capacité d'observer correctement l'individu à déterminer. De plus, la précision attendue pour une détermination doit être adaptée à l'utilisation prévue du résultat ; les applications dans le domaine scientifique sont bien sûr les plus exigeantes. Selon les cas, plusieurs situations de détermination peuvent se rencontrer, isolément ou en concours. 3.4.1 Détermination par comparaison directe Ce premier mode de détermination exige la disposition d'une collection de référence (herbier, jardin botanique par exemple) ou d'un substitut (flore où les différentes espèces sont figurées). Il suffit (non sans mal néanmoins !) de comparer visuellement l'indéterminé avec chacun des référents disponibles, afin de sélectionner celui qui correspond le mieux ; le nom de ce référent est alors adopté comme l'identification recherchée. Du fait que cette méthode n'astreint pas à décrire, la qualité du résultat est étroitement dépendante des dons d'observation du déterminateur. Tout tient en effet en sa capacité de juger de “l'identité” entre deux individus, qui ne sont pourtant jamais semblables s'agissant de créatures de la nature. Comme aucun contrôle n'est possible, puisqu'aucune connaissance n'est a priori pré-requise, elle peut conduire à des erreurs quand l'œil n'est pas suffisamment exercé. Elle constitue par contre l'ultime confirmation pour le spécialiste, pour lequel la comparaison visuelle directe avec le type demeure l'épreuve de vérité irremplaçable. Le type est l'unique spécimen désigné comme le référent absolu de chaque classe lors de la création de celle-ci ; il n'existe pas de classe dépourvue de type, sauf celle de l'Espèce Homo sapiens peut-être pour des raisons éthiques. 3.4.2 Détermination par comparaison avec des descriptions Ce deuxième mode nécessite d'abstraire le spécimen indéterminé, en en faisant la description plus ou moins complète. La seule observation n'est plus suffisante. En effet, la comparaison va se faire non plus avec des référents concrets, mais avec des descriptions jouant le rôle de référents abstraits. Chaque classe naturelle est pourvue, outre son type, d'une description ou d'une diagnose (description différentielle) ; chaque flore ou chaque faune constitue ainsi un recueil de descriptions, équivalent en quelque sorte de la collection de référence utilisée pour la comparaison concrète. Terminologie et concepts mis en œuvre 95 On procède par élimination progressive. Pour chaque caractère examiné, on met de côté tous les référents incompatibles. Quand tous les caractères ont ainsi été explorés, soit les référents restant en lice appartiennent à la même classe, et celleci devient la classe de détermination, soit ils se répartissent dans plusieurs classes et la détermination est incomplète. S'il ne reste aucun référent, il y a une erreur quelque part, soit dans la description de l'indéterminé, soit dans celle des référents, soit dans l'affectation des référents aux différentes classes ; à moins qu'il ne s'agisse de quelque chose de nouveau, ne se rapportant à rien de connu. 3.5 Apprentissage et raisonnement L'apprentissage est en lui-même une activité intelligente de l'être humain. Le but de l'apprentissage automatique effectué par une machine est de simuler l'apprentissage humain à l'aide de différents mécanismes de raisonnement. Le raisonnement agit sur des connaissances dont on constate plusieurs niveaux de généralité : faits particuliers, définitions de concepts (règles), méthodes de résolution d'un problème, méta-connaissances, etc.. De plus, ces connaissances sont structurées dans notre cerveau selon un modèle. Pour être capable de simuler le raisonnement, il faut être en mesure de représenter ces différentes sortes de connaissances. On constate de même que ces connaissances évoluent avec le temps, dans le sens d'un enrichissement (espéré). Pour Michalski (1986), l'apprentissage est “lié à la construction ou modification des représentations de ce que l'on expérimente”. Si l'on veut doter les machines de capacités d'apprentissage, il faut absolument prendre en compte la définition d'une structure pour représenter l'espace des connaissances, ainsi que des moyens d'y accéder pour les modifier ou pour en générer de nouvelles. Classiquement, les systèmes experts ont utilisé le formalisme des règles de production pour modéliser les connaissances d'un expert. L'acquisition des connaissances s'effectue par l'intermédiaire d'un cogniticien qui aide l'expert à expliciter ses règles de décision. Ensuite, l'apprentissage met en place un mode de raisonnement par déduction à partir de ces règles explicites et de faits nouveaux qui leur sont présentés. Le système expert infère des conclusions dont les résultats valides seront ajoutés dans la base de connaissances. Nous considérons l'apprentissage comme le processus de classification (discrimination) qui permet de généraliser des cas spécifiques pour construire une définition abstraite (des règles de décision) en fonction d'un “bon” critère de classification. Il s'agit d'apprentissage où le raisonnement se fait d'abord par induction. Ensuite, comme pour les systèmes experts classiques, on déduit à 96 Chapitre 3 partir de ces nouvelles connaissances qu'un nouveau cas est couvert par cette définition abstraite. Les généralisations “de haut niveau” extraites à partir des cas sont utiles pour comparer des concepts différents, les valider les uns par rapport aux autres (notamment par rapport à ceux élaborés de manière classique), mais aussi pour identifier rapidement une nouvelle observation. Ce raisonnement nécessite donc une classification préalable. Une autre forme de raisonnement logique, introduite par Peirce (1965), est l'abduction. Elle est l'opération qui consiste à choisir une hypothèse explicative obtenue en faisant la trace arrière des règles du domaine, compte tenu des conclusions supposées vraies. Par exemple, soit la règle suivante (modus ponens) qui permet de déduire que si l'on observe du feu, alors on a de la fumée : R : ∀ x ∈ {lieux}, feu(x) => fumée(x) Dire qu'il n'y a pas de fumée sans feu, c'est faire de l'abduction : on fait l'hypothèse qu'il y a un feu du fait que l'on observe de la fumée et que l'on connait R. La déduction est le raisonnement inverse exprimé par la règle R. Pour l'induction, on doit observer qu'à chaque fois qu'il y a un feu quelque part, on observe aussi de la fumée à ces endroits, et on construit donc la règle générale R. Une autre forme de raisonnement fait aujourd'hui l'objet de recherches actives : elle repose sur les exemples eux-mêmes sans chercher à les généraliser. L'idée consiste à interpréter une nouvelle observation à l'aide d'un cas similaire extrait du système et choisi comme guide [Bareiss, 1990]. C'est le principe du raisonnement par cas. Raisonner consiste à comparer la proximité des cas avec la nouvelle observation par une mesure de distance. Il ne nécessite donc qu'un classement des individus au préalable (individus pré-classés par un nom de classe). Pour résumer, nous donnons la figure 3.8 suivante : raisonnement entrée sortie déduction prémisses + règles concepts induction prémisses + classes règles + concepts abduction règles + concepts prémisses “par cas” prémisses + classes classes Fig. 3.8 : Les modes principaux de raisonnement en apprentissage automatique 97 Terminologie et concepts mis en œuvre En définitive, l'aspect très important du raisonnement en apprentissage automatique doit être la mise en œuvre concertée dans les algorithmes, de mécanismes symboliques logiques issus des recherches en intelligence artificielle (représentation des connaissances, règles de généralisation, stratégies de contrôle, etc.) et de méthodes numériques performantes (distances, mesures de proximité, entropie, etc.) propres à l'analyse des données et aux statistiques. Cette nécessité est à l'origine du développement des recherches sur le traitement des connaissances “symboliques - numériques” en apprentissage [Kodratoff, Diday, 1991]. 3.6 Individus, instances et objets L'individu est considéré de manière extensive, synonyme d'un élément d'un groupe ou d'une classe. Dans l'idéal, un individu est un être réel, une entité tangible et distincte. Il s'agit d'un sujet unitaire correspondant à un spécimen en biologie. Seul un individu peut être décrit, et ce n'est que dans un sens généralisé que l'on peut parler de “description de classe”. Dans ce contexte, l'individu est synthétique et correspond à un ensemble d'éléments distincts comme par exemple l'Espèce avec ses différents spécimens. L'instance est l'individu passé, présent et à venir qui appartient à un concept (le petit chien à naître fait partie du concept de chien) alors que l'individu existe indépendamment de celui-ci. Pour résumer : l'individu appartient à la classe l'instance appartient au concept Du point de vue mathématique, l'individu fait partie d'une population observable notée que l'observateur cherche à décrire. Une fois observé, l'individu devient objet d'observation noté w . Une fois décrit, l'objet a une description notée d(w). L'observateur ou le descripteur (celui qui décrit) s'est approprié l'individu (le sujet) qui est devenu un objet de description (observé ou décrit). La population observée est notée . L'objet prend différentes significations selon le point de vue et l'échelle d'observation auxquels l'observateur se place : du point de vue d'une “description de classe”, l'objet est pris comme un élément de cette classe, c'està-dire un individu. Par contre, si l'on se place à l'échelle d'une description individuelle, l'objet correspond à un composant de l'individu (ou partie “individualisable”). Tout dépend donc du point de vue ! Pour résumer : Un objet Un individu = = une entité descriptive d'un individu une entité descriptive d'une classe 98 Chapitre 3 Pour illustrer cette distinction, considérons l'ensemble (taxon) des Mammifères : en se plaçant du point de vue de la “description de cette classe”, l'objet sera par exemple une baleine ou un éléphant particulier. Par contre, en considérant la description d'un individu de la classe des Mammifères, l'objet sera l'une des entités descriptives de cet individu, à savoir sa tête, son tronc, ses jambes, etc.. Dans cette thèse, nous nous plaçons dans le second cas de figure : nous souhaitons acquérir des descriptions d'individus dont les objets sont les différents composants de ces individus à analyser. Entre individu et classe, la relation qui lie ces deux notions est celle d'appartenance de l'individu à la classe : l'individu w est un élément de l'ensemble C. Par opposition, deux classes emboitées sont liées par la relation d'inclusion ensembliste. 99 Terminologie et concepts mis en œuvre 3.7 Synthèse des concepts utilisés dans cette thèse Dans ce chapitre, nous avons indiqué les différents points de vue des utilisateurs systématiciens et mathématiciens sur les mots clé tels que le classement, la classification, la classe, le concept, etc.. Dans la figure 3.9, nous regroupons les différents termes employés et nous les organisons de manière à faire ressortir les relations qu'ils entretiennent : construction Domaine e x t e n s i o n classement classification classe concept induction individus décrits (cas) descriptions raisonnement par cas identification par comparaison définition en intension (critères) déduction i n t e n s i o n détermination utilisation Fig. 3.9 : Relations entre les concepts utilisés Nous pouvons analyser un domaine naturel sous deux angles différents. La partie grisée correspond plus à la vision du mathématicien contemporain. Il raisonne dans le monde des idées, c'est pourquoi les notions abstraites de classification et de concept lui sont plus familières. Il utilise plus naturellement la déduction pour résoudre un problème de détermination. Contrairement à lui, le naturaliste raisonne au niveau du monde réel (partie non grisée). Partant d'une 100 Chapitre 3 classe (ensemble d'individus) dont le contenu (l'extension) est sa couverture, il observe et crée le nom de cette classe puis la définit (en intension) afin de créer le concept associé. Mais avant de généraliser, le systématicien aura au préalable décrit beaucoup d'échantillons pour se familiariser avec son domaine. La construction d'hypothèses par induction n'est néanmoins pas seulement la démarche des sciences expérimentales, ainsi que nous l'affirment Euler et Pólya au niveau des mathématiques : la découverte de règles résulte d'un aller et retour permanent entre des observations et des hypothèses sur ces observations. Nous affirmons que l'informaticien peut contribuer de manière originale à l'amélioration des règles apprises en se positionnant au niveau des descriptions entre les observations et les règles. Par exemple, il peut les rendre comparables entre elles du fait qu'elles utilisent le même schéma de représentation, celui du modèle descriptif. Les descriptions sont au centre des préoccupations des différents opérateurs (mathématiciens, psychologues, biologistes, etc.) souhaitant faire de la classification et de la détermination d'objets. Elles permettent d'expliciter un individu, c'est-à-dire que le fait de connaître la description d'un individu rend celui-ci explicite. Si elles ne sont pas forcément nécessaires pour faire du classement ou comparer les objets entre eux, elles sont néanmoins le support de la transmission du savoir car elles expriment la richesse et la diversité des observations du monde réel. A ce titre, les descriptions jouent un rôle central en sciences naturelles comme nous le verrons au chapitre 4. Il sera donc très important pour l'informaticien de voir comment les rendre le plus robuste possible. IV LE ROLE CENTRAL DES DESCRIPTIONS EN SCIENCES NATURELLES Les sciences dites d'observation reposent sur la capacité d'analyser la réalité des choses, en bref de décrire. L'activité de description va tellement de soi que son analyse apparaît presque comme superflue. Pourtant chacun sait qu'il y a de bonnes descriptions et de moins bonnes, et que leur emploi indispensable en tant qu'outils pose de nombreux problèmes. Pourquoi les descriptions ? Quelles qualités doivent-elles avoir ? Telles sont les questions auxquelles il convient d'apporter des réponses claires, avant même de rechercher quelles solutions informatiques sont de nature à faciliter et à améliorer les activités de description, telles qu'elles interviennent par exemple en classification ou en détermination des êtres vivants et autres objets naturels. 4.1 Objectifs de la description1 La description des différentes entités qui composent notre monde est apparue dès la plus haute antiquité comme le moyen fondamental d'accroissement des connaissances. Pour “apprendre” ce qu'est un animal, une plante, une roche, etc., il faut l'observer certes, mais aussi s'en faire une représentation mentale (pour soi-même) ou écrite (pour les autres). La transmission du savoir implique la notion de description. Une description scientifique est une abstraction objective. Abstraction parce qu'elle permet de s'affranchir de l'observation réelle qui lui a donné matière ; et objective parce qu'elle ne laisse pas place à l'interprétation. Dans l'idéal, il n'y a pas de déformation mais une simple transcription “à l'identique” des traits concrets de l'entité observée en des caractères, ou traits, représentés. La représentation se fait traditionnellement sous forme textuelle, souvent agrémentée de dessins ; notre époque voit la banalisation de supports permettant plus de richesse et de souplesse, qu'il importe de savoir adapter à la complexité et à la variabilité du monde réel. 1 Les paragraphes 4.1 à 4.5 (inclu) correspondent à la version française de l'article [Le Renard & Conruyt, 1994]. 102 Chapitre 4 Décrire peut constituer un objectif en lui-même. L'intérêt de passer, avec une perte d'information minime, du niveau concret à un niveau plus “manipulable” se fait sentir dès que le savoir doit être diffusé. On peut multiplier les descriptions, pas les originaux. Pour un domaine donné, correspondant à un certain groupe naturel particulier, les “échantillons” sont en général disséminés dans de multiples collections, en des lieux divers, ce qui rend leur consultation longue et difficile ; s'il existe des recueils de leurs descriptions, cela revient en quelque sorte à démultiplier leur disponibilité. De plus, certains échantillons sont périssables, ou certains de leurs caractères s'altèrent avec le temps ; les descriptions et les figurations peuvent permettre dans une certaine mesure de pallier les problèmes de conservation. Mais surtout les descriptions constituent l'un des ingrédients de nombreuses activités scientifiques plus “nobles”. Elles constituent en effet des sources d'information, de données ou de connaissances, irremplaçables. L'étude des analogies et des différences entre descriptions est à la base de tous les processus de classification ; et la comparaison d'un objet naturel (concret ou abstrait) avec des descriptions préexistantes sous-tend toute activité de détermination. On peut dire ainsi que l'on décrit pour, dans un premier temps, accroître les connaissances ponctuelles, et ensuite apprendre la nature à un niveau plus général et mieux la comprendre. De ce double objectif découlent les qualités que l'on doit attendre des descriptions. 4.2 Qualités de la description Nous avons vu que la qualité primordiale d'une description est son objectivité, c'est-à-dire qu'elle doit être à la fois vraie et complète. Toute méthode visant à faciliter la description doit donc permettre de couvrir tout ce qui est observable et de l'exprimer exactement, sans ambiguïté ; cette condition reflète le souci de maximiser le contenu informatif de la description. Dans l'absolu, une description parfaite devrait permettre de reconstituer exactement l'objet primitif ; dans la pratique, on se contente de pouvoir se faire une “bonne idée” de cet objet, surtout en ce qui concerne ses particularités. Notons que ceci implique que soient pris en compte non seulement les caractères descriptifs, mais aussi les différents liens (topologiques, relationnels, de dépendance, etc.) qui peuvent exister entre ces caractères ; car ces liens sont eux-mêmes porteurs d'information. D'autres qualités annexes peuvent être citées, comme la clarté et la concision, valables pour tout écrit scientifique. Certains auteurs s'attachent à l'élégance du texte ; une bonne forme et un bon style ne sauraient en effet nuire à un bon contenu. Il est rarement fait cas de l'intelligibilité, qualité qui rendrait la compréhension de la description aisée même par un non spécialiste ; elle implique le recours à un vocabulaire moins technique, avec en contrepartie une Le rôle central des descriptions en sciences naturelles 103 perte de concision et de précision : il y a donc là un compromis à trouver, dans l'attente d'une solution qui permettrait d'adapter le “niveau” de la description à celui de l'utilisateur. Mais il ne suffit pas à une description d'être excellente en elle-même : il lui faut de plus être comparable. 4.3 Qualités des descriptions Aux fins de classification ou de détermination, l'essentiel est de pouvoir comparer des descriptions entre elles. Quand ces descriptions ont été rédigées par un même auteur, elles suivent généralement un même plan d'ensemble, ce qui facilite les comparaisons en localisant les caractères homologues à des parties correspondantes des textes. Mais, quand les auteurs sont différents, ils ont pu suivre des “méthodes” d'observation hétérogènes ; les comparaisons en sont rendues bien plus délicates. La notion d'homologie est essentielle ; elle permet de s'assurer que l'on ne compare que des caractères comparables et découle du fait que tous les objets biologiques possèdent un plan d'organisation, qui se retrouve identique chez leurs semblables. La reconnaissance et la prise en compte de ce plan de constitution général autorise une structuration naturelle des descriptions, suivant ce que nous appellerons un modèle descriptif. Remarque : Les considérations précédentes concernent virtuellement toutes les descriptions d'objets naturels. Cependant, aussi bien en classification qu'en détermination, chaque spécialiste limite ses études à un domaine plus particulier, comme un groupe zoologique ou botanique, et/ou une zone géographique, et/ou un écosystème, etc.. Dans cette thèse, c'est un tel domaine bien délimité que nous aurons en tête, plutôt qu'un “système universel” encore actuellement inaccessible. 4.4 La représentation des données descriptives Partant du principe que l'on ne comprend que ce que l'on modélise, et qu'il vaut mieux adapter le modèle à la réalité que l'inverse, nous allons étudier plus en détail quels sont les éléments constitutifs d'une description, et comment ils sont agencés entre eux par le descripteur. (Nous appelons ainsi la personne, généralement un spécialiste, qui fait la description, et non un caractère décrit qui devrait s'appeler un ... décrit ou descriptum). Nous en déduirons comment doivent être conçus les modèles descriptifs, en tenant compte des contraintes de qualité énoncées précédemment. 104 Chapitre 4 4.4.1 Structuration naturelle Plaçons-nous dans le cadre d'un domaine quelconque ; par exemple les animaux de la ferme, domaine pour lequel chacun peut revendiquer le titre de “spécialiste”. Et voyons comment le spécialiste va s'y prendre pour classifier et déterminer ces animaux. Première observation : tous ces animaux ont quatre membres, deux à l'avant, deux à l'arrière. Les membres antérieurs sont soit des pattes, soit des ailes chez les volailles. On apprend ainsi qu'il existe deux catégories principales, que le spécialiste dénommera aussitôt Mammifères et Oiseaux (avec des majuscules : on est dans un domaine scientifique). Ensuite, parmi les Mammifères, le chat et le chien de la ferme se distinguent en mangeant de la viande. Voilà deux autres catégories : Carnivores pour eux, Herbivores pour les autres. Parmi les Carnivores, il y a le Chat qui ressemble au Tigre, et le Chien qui ressemble au Loup : Félins et Canins. Etc. On voit s'établir de la sorte une véritable hiérarchie de catégories (ou classes, au sens large du terme), de la plus générale (Animaux) aux plus particulières (les Espèces, comme Chat, Chien, Cheval etc.). Cette “systématique” s'appuie sur une hiérarchie de caractères discriminants (la nature des membres antérieurs, le régime alimentaire, etc.) plus ou moins faciles à mettre en évidence ; par exemple, sur quoi s'appuie la distinction entre Félins et Canins ? C'est le propre du spécialiste de savoir reconnaître du premier coup d'œil : il est expert de son domaine. Mais pour comprendre, pour connaître, il a besoin d'analyser la réalité de plus près. Ce n'est qu'après avoir fait (ou avoir lu) les descriptions des divers Félins que lui-même (ou un autre spécialiste avant lui) pourra préciser la définition de la classe appelée Famille des Félidés et dire qu'elle se différencie, entre autres, par la présence de dents postérieures tranchantes dites carnassières, là où ne se montrent chez les Canidés donc chez le Chien que des molaires peu spécialisées. On peut noter dès ici que la “distinction entre Félins et Canins” relève en fait de deux approches duales. Dans un sens, celui suivi en classification, on apprend, par un processus de généralisation, que le caractère “présence de carnassières” synthétise (on dit : subsume) tout ce qui a pu être observé chez les différents Félins en matière de dents postérieures. Dans l'autre sens, celui suivi en détermination, on déduit, par l'analyse du fait qu'il a des carnassières, que Minou est un Félin et non un Canin. Mais dans les deux cas, il a fallu recourir à la description des dents postérieures ; c'est ce que nous appellerons une description locale. Le rôle central des descriptions en sciences naturelles 105 4.4.2 La logique de composition La description d'une entité (disons d'un chat, ou d'un chien) est une composition de descriptions locales, correspondant à tout ce qui est observable (donc descriptible). L'ordre dans lequel progresse la description n'est pas quelconque, mais répond à une certaine logique qu'il convient de reconnaître. Alors que le chat et le chien sont tous deux composés d'un corps, d'une tête, de quatre pattes et d'une queue (ils héritent tout cela de leur appartenance à la classe des Mammifères), ce serait de l'anticonformisme que de faire commencer leur description par la queue ; commencer par les pattes serait curieux, à moins que le descripteur ne soit une fourmi ; quant au choix entre le corps et la tête, il reste ouvert. En fait, cette logique est affaire de spécialistes, qui seuls sont capables de se mettre d'accord pour cerner l'ordre le plus “naturel” à suivre lors des descriptions. Si c'est la tête qui vient en ... tête, selon une logique toute trouvée, alors la description s'intéressera d'abord à ses caractères propres, comme sa forme, ses dimensions, sa couleur, etc., à ses rapports avec les autres parties, et ensuite, ici aussi selon un ordre non arbitraire, on passera à la description de ses sous-parties (yeux, bouche, nez, oreilles, etc.). Et ainsi de suite. Ce mécanisme de base est celui de la décomposition en sous-parties ; il est répété autant de fois qu'il est nécessaire pour atteindre la finesse de description souhaitée (qui, rappelons-le, dépend de l'utilisation visée). On peut convenir ainsi d'un “arbre d'exploration”, à chaque nœud duquel on doit effectuer une description locale, et dont chaque branche traduit une relation de partie à souspartie. Pour que cet arbre n'introduise pas de limitation arbitraire, il doit prévoir toutes les situations susceptibles de se rencontrer, y compris les cas particuliers et les exceptions. De ce fait, il est généralement plus touffu qu'il n'est nécessaire pour chaque situation de description considérée individuellement, où certaines branches peuvent s'avérer non pertinentes ou sans objet. En particulier, lors des descriptions, il est fait appel à un mécanisme d'élagage automatique, de pur bon sens. Ainsi, le fait de constater l'absence d'une certaine partie rend sans objet la description de ses sous-parties ; de même, si par exemple je décris Médor, le chien de garde de la ferme, et qu'il ne veut pas ouvrir la gueule, je préfèrerais qu'on me dispense de décrire ses dents ou sa langue. Ceci illustre une situation couramment rencontrée lors des descriptions d'objets naturels, où certaines descriptions locales ne sont pas possibles du fait de la situation d'observation (partie cachée ou présentement indistincte) ou du fait de l'état incomplet du spécimen décrit. On peut considérer que, par convention, l'absence d'une description locale signifie que la partie correspondante est inconnue ; par opposition, le fait que cette partie soit constatée absente constitue une information qui doit figurer explicitement dans la description. 106 Chapitre 4 Cette dernière distinction est importante. Quand je décris un Chat, si je déclare qu'il n'a pas de queue, je m'oriente vers le fait qu'il appartient à la race Manx (chats sans queue de l'Ile de Man), à moins qu'il ne s'agisse d'un accident. Par contre, si je reste muet sur sa queue, je n'apporte aucune information ; la “valeur «inconnu»” souvent invoquée dans ce cas est un non-sens, ou pire un artifice tendant à donner la forme d'une information à ce qui n'en est pas. 4.4.3 La logique des points de vue Il arrive souvent que la description d'un objet naturel puisse se faire à différents niveaux. Par exemple, elle s'intéressera à la morphologie, ou à l'anatomie, ou à la cytologie, voire à la biochimie ou la carte génétique. Ceci est vrai d'ailleurs pour chacun des points d'observation ou parties concernées. Il faut donc pouvoir répartir l'information selon ces différents points de vue, et tenir compte des relations structurelles existant entre ces différents plans d'observation. Pratiquement, la logique des points de vue est très semblable à la logique de composition. Cependant elle ne possède pas une sémantique aussi riche ; le fait que, dans une description d'une partie donnée, un niveau d'analyse ne soit pas accessible n'implique pas que ce niveau demeure inaccessible lors de la description des sous-parties. Une autre différence réside dans le fait que, lors d'une classification, l'absence avérée d'une sous-partie sera prise en compte comme une information, alors que l'absence d'un point de vue n'a aucune signification classificatoire. L'intérêt de cette logique est de permettre l'analyse des descriptions de plusieurs entités selon des points de vue analogues. Alors que l'on s'attendrait à ce qu'une classification établie selon un certain point de vue (disons la morphologie externe) corresponde à la classification établie selon un autre point de vue (disons le génome), force est de constater généralement des divergences de résultats. Pour expliquer ces écarts, il est nécessaire de pouvoir disposer de “passerelles” entre les différents points de vue, donc de les appliquer à une structure commune ; c'est là l'un des gros intérêts d'établir un modèle descriptif, qui permet de préserver l'homologie même à des échelles d'observation différentes. Le modèle descriptif permet en quelque sorte d'indéxer les connaissances, de les positionner les unes par rapport aux autres ; c'est un peu l'équivalent des structures relationnelles et/ou hiérarchiques dans les banques de données. 4.4.4 La logique de spécialisation Revenons aux animaux de la ferme, et supposons que nous disposions d'une classification des différents types de ferme d'élevage. Alors que, si nous ne savons rien de “notre” ferme, le modèle général des animaux qui y sont élevés comporte quatre membres, s'il s'agit d'une ferme spécialisée dans l'aviculture, nous pouvons partir d'un modèle plus précis, d'animaux pourvus de deux ailes, Le rôle central des descriptions en sciences naturelles 107 de deux pattes, d'un bec, de plumes, ou au contraire dépourvus de cornes ou de dents, etc.. Le fait de disposer, à un niveau déjà abstrait, d'un concept plus précis de notre ferme nous permet de restreindre l'étendue du domaine de connaissances, et de renseigner par avance (sans observation) un certain nombre de descriptions locales. Ce mécanisme, dit de spécialisation, est d'une généralité telle qu'il peut être découvert dans de très nombreuses descriptions rédigées par les naturalistes, en lieu et place de véritables descriptions locales. Ainsi, la simple indication que notre ferme élève des oiseaux aquatiques (des canards par exemple) supplée en partie à une description des pattes (qui sont toujours palmées) ou du plumage (qui est toujours étanche à l'eau). La spécialisation constitue ainsi un raccourci commode, permettant de remplir “par défaut” tout ou partie d'une description locale réelle par une description conceptuelle. Ceci comporte bien sûr un risque d'imprécision, voire d'inexactitude ; il est donc nécessaire de compléter “manuellement” l'information ainsi déduite. 4.4.5 La logique de particularisation Alors que la spécialisation procède par restriction du domaine observable, la particularisation permet au contraire d'élargir le domaine courant pour tenir compte d'un cas particulier. Supposons que nous apprenions que notre ferme fait de l'aquaculture ; donc plus d'animaux à quatre membres, mais des poissons (pisciculture) ou même des huîtres (ostréiculture). Les descriptions vont devoir tenir compte de caractères concernant des écailles, des nageoires, ou des coquilles ; si ces caractères n'étaient pas présents dans le modèle général des animaux de ferme, il va falloir, pour ce cas particulier, procéder à un élargissement du modèle. Cette démarche, complémentaire de celle de spécialisation, apparaît comme une complication (un peu comme les “verrues” dans un logiciel). Il semble préférable de ne la suivre que dans des situations réellement exceptionnelles, telles qu'il soit justifié de les traiter à part plutôt que de les intégrer dans le moule général. 4.4.6 La logique d' itération L'étude des mécanismes précédents s'est appuyée implicitement sur une mise en correspondance d'une part d'une description composée de sous-descriptions (ou de descriptions locales), d'autre part d'un modèle descriptif composé de sousmodèles descriptifs. La description concerne l'observé, le modèle concerne l'observable. Il arrive fréquemment que, dans une description, plusieurs caractères, bien que non rigoureusement identiques, soient du même “type” et suivent un même sousmodèle descriptif. Prenons l'exemple des dents des Mammifères. Si nous avons 108 Chapitre 4 à décrire la denture d'un homme (si nous avons peur de celle du chien), nous voyons bien qu'il existe plusieurs sortes de dents, disons 3 ou 4 sortes selon notre perspicacité. Les plus savants les désigneront d'emblée : incisives, canines, prémolaires et molaires ; mais il n'est nullement nécessaire de connaître leur nom pour les décrire correctement. Il suffit de suivre un sous-modèle commun de description des dents, et de l'appliquer de façon itérative autant de fois que nécessaire (ici 3 ou 4 selon que le descripteur percevra ou non la différence de nature entre les prémolaires et les molaires). Nous avons en effet vu l'importance du respect du principe d'homologie. Si nous devons comparer dans le détail les dentures du chien et du chat, il faut s'assurer que nous comparons bien les canines (ou “crocs”) de l'un avec les canines de l'autre ; sinon, on s'égare. Il faut être conscient du risque d'interprétation (donc de subjectivité) qu'il peut y avoir à s'aventurer dans des “déterminations locales” ; le descripteur, non averti des limites de son savoir, qui désignerait comme des canines les défenses du Morse et celles de l'Eléphant commetrait une erreur, qui par suite le conduirait à comparer des objets non véritablement homologues : les défenses de l'Eléphant sont des incisives modifiées, contrairement à celles du Morse qui sont bien des canines, quoique d'une taille exceptionnelle. Il est vrai qu'il est difficile de se borner à décrire, sans rechercher à comprendre et à apprendre ; mais, paradoxalement, une bonne description ne devrait pas faire appel à l'intelligence, au risque de se trouver biaisée par un modèle mental hélas faillible. En boutade, cela ne désigne-t'il pas les activités de description comme d'excellents clients pour l'intelligence artificielle ? Une autre situation peut se rencontrer lors des descriptions. Supposons que nous procédions à la description locale de l'inflorescence d'une plante, et que le sousmodèle descriptif correspondant donne comme liste des couleurs possibles blanc, jaune et rouge, et autorise plusieurs réponses (choix multiple). Si nous répondons à la fois blanc et jaune, cela signifie que la couleur est blanc ou jaune, et traduit une imprécision (peut-être une nuance intermédiaire comme un blancjaunâtre ?). Pour exprimer que nous observons effectivement les couleurs blanc et jaune simultanément, il faut procéder à deux descriptions locales successives, l'une de fleurs de couleur blanche uniquement, l'autre de fleurs de couleur jaune ; il est en effet fort probable que ces deux types de fleurs ont d'autres caractéristiques qui les distinguent, comme leur localisation au sein de l'inflorescence voire même leur sexe, et qu'elles n'ont pas la même signification organique. Remarque : Il faut bien distinguer de ce dernier cas la description des associations (de couleur par exemple) bien répertoriées sous le nom de panachures, de mosaïques, etc.. Le fait qu'une feuille soit panachée vert et jaune ne doit pas se traduire par le choix simultané de vert et de jaune, mais par le 109 Le rôle central des descriptions en sciences naturelles choix unique de l'association vert+jaune dûment répertoriée. Ceci peut se traduire dans le modèle descriptif par une hiérarchie de valeurs du type : couleur de la feuille panachée vert+jaune vert+violet unie vert violet argent Le processus d'itération est donc celui qui doit être mis en œuvre chaque fois qu'il faut exprimer des faits conjoints, c'est-à-dire qui sont constatés simultanément. 4.4.7 Les conditions contextuelles Les caractères sont généralement dépendants les uns des autres. Plutôt que de déformer la réalité en émettant une quelconque hypothèse d'indépendance (trop rarement vérifiée), il convient de tirer parti au maximum de toute l'information véhiculée par ces relations. Particulièrement fréquentes sont les relations de concomitance et d'exclusion. Elles traduisent respectivement une condition de présence ou d'absence d'un caractère en fonction du “contexte” formé par d'autres caractères. Par exemple, il intervient dans la classification des Mammifères le fait qu'ils soient ou non dotés d'un placenta (distinction entre les Placentaires et les Aplacentaires) ; il est bien évident que cela ne saurait être observé chez les individus mâles ; si le contexte de la description correspond à un taureau, il est “non pertinent” de s'intéresser à savoir s'il est gravide, ou au nombre des pis portés par ses mammelles. Notons que, comme pour la “valeur «inconnu»”, cela n'a pas de sens de parler de “valeur «n. p»” sauf s'il s'agit de combler des cases vides dans un tableau de caractères : l'information liée à la “non pertinence” du caractère gravide est entièrement portée par le fait que le taureau est de sexe mâle, et traduit le fait général de l'exclusion entre masculinité et gestation. La nature est ainsi faite. On imagine sans mal l'existence de relations de concomitance, quand la présence d'un caractère découle “automatiquement” du contexte. De telles relations ne sont parfois sensibles qu'au spécialiste, et lui permettent de constituer son expertise. Nous prendrons un exemple réel tiré du diagnostic en maladie des plantes, où l'expert, constatant un dessèchement de l'extrémité des feuilles, va regarder à l'endroit le plus inattendu, à savoir le “collet” (base de la tige), s'il n'y a pas là un “chancre” qui entraverait la circulation de la sève; il exploite de la sorte une relation de concomitance, et plus précisément une relation de cause à effet. Du fait de la variété de la nature, les dépendances entre caractères ne sont que rarement absolues ; par exemple, il existe des dessèchements non dûs à un 110 Chapitre 4 chancre du collet, et la nature a horreur des “règles” et “lois” dépourvues d'exceptions : c'est le mâle de l'Hippocampe qui est enceint ! Il importe donc, non seulement de tenir compte des relations de dépendance, mais de pouvoir préciser leurs limites d'application, donc les exceptions et les “contextes” afférents. Dans de nombreuses situations d'observation, une partie de ce qui devrait théoriquement être observable ne l'est pas ; ou au contraire, une description locale n'est possible que dans certaines conditions. Ceci peut ici encore se traduire par des règles contextuelles, par exemple : Si le chien est méchant, ne pas observer ses dents ; ou : Si l'oiseau est en vol, décrire les marques du dessous de ses ailes. Ces conditions traduisent des “connaissances” de bons sens, et peuvent être utilement exploitées pour guider “intelligemment” l'observation. 4.5 Représentation structurée selon un descriptif modèle Pour un domaine donné, le modèle descriptif est créé par l'expert. Il doit représenter sous une forme structurée tout ce qui est observable. De plus, le modèle descriptif a pour objectif majeur de constituer un guide d'observation lors des descriptions. Il doit être à même de traduire sans les contraindre l'ensemble des mécanismes ou logiques d'observation mises en évidence précédemment. Il s'agit donc d'une représentation de l'ensemble des connaissances sur l'observable, adaptée à l'acquisition des connaissances sur l'observé. Pour un domaine donné, le modèle descriptif peut revêtir, de façons équivalentes, plusieurs formes, selon l'utilisateur visé. De façon profonde, il est représenté sous une forme informatique, adaptée à une base de connaissances observables ; on y trouvera des objets, des “frames”, des listes, des tableaux, des règles, des illustrations, etc., rédigées selon une syntaxe traduisant aussi exactement que possible les différents mécanismes d'observation et les “connaissances de fond” sur le domaine. Sous cette forme, il n'est pas destiné à être lu par le naturaliste ; c'est seulement une représentation technique, servant d'entrée et/ou de sortie aux différents modules de traitement des descriptions. Le modèle informatique se doit bien sûr de suivre un formalisme immédiatement transposable au plan mathématique, afin de permettre l'exploitation des connaissances par les logiciels d'analyse de données symboliques, d'induction et autres. Le rôle central des descriptions en sciences naturelles 111 Au naturaliste spécialiste du domaine, qui travaille à son élaboration et à sa mise au point, le modèle descriptif doit se présenter de façon beaucoup plus pratique et synthétique. Son caractère structuré justifie une présentation sous forme d'un graphe d'organisation du domaine, dans lequel apparaissent au premier aspect les différentes parties ou sous-parties, avec leurs relations et leurs caractéristiques propres. La manipulation de ces “objets” (au sens informatique du terme), pour les créer, les modifier, les déplacer, leur associer des illustrations etc, gagne à se faire par voie graphique, grâce à des outils interactifs, simples d'emploi pour les mettre à la portée des biologistes non informaticiens. Un dernier habillage, peut-être le plus important pratiquement, permet de présenter le modèle descriptif comme un véritable guide d'observation ; nous l'avons appelé “questionnaire” dans les applications que nous avons développées, car c'est lui qui est mis entre les mains du descripteur, et donne la possibilité de naviguer de manière souple mais logique entre différents écrans de saisie. Chaque écran (“carte” selon l'outil HyperCard ici employé) correspond à l'acquisition d'une description locale, en exacte conformité avec la partie correspondante du modèle descriptif. Notons ici que le modèle descriptif peut prévoir une gradation dans la précision des réponses, voire autoriser la fameuse réponse “?” qui traduit l'incertitude totale ; ceci est absolument essentiel lors de descriptions réelles, où le contexte ou les circonstances n'autorisent pas toujours des descriptions complètes (Cave canem !). Les descriptions obtenues, dont la cohérence est assurée à chaque étape et dont la complétude est vérifiée en fin de saisie, peuvent être présentées à leur tour sous plusieurs formes. Leur forme initiale, qui est celle du questionnaire une fois rempli, peut être ré-importée pour apporter des corrections ou des compléments de description. Mais il est parfois utile de pouvoir les visualiser sous forme d'un sous-graphe instancié du modèle descriptif ; cette présentation permet de faire ressortir la structure sous-jacente à la description, qui est quelque peu perdue de vue lors de la navigation dans le questionnaire. Ces deux formes sont en fait très complémentaires, et la possibilité doit être donnée de basculer aisément de l'une à l'autre. D'autre part, il est presque nécessaire de pouvoir présenter à l'utilisateur les descriptions sous forme d'un texte en langage naturel, ainsi qu'il y est habitué depuis toujours ; il n'est pas difficile à ce niveau d'offrir le choix entre plusieurs langues-cibles. Enfin, les descriptions saisies sont archivées avec la même représentation informatique que les modèles descriptifs, par souci d'efficacité et d'homogénéité ; de la sorte, les connaissances sur l'observable et celles sur l'observé bénéficient du même formalisme particulièrement adapté, ce qui permet de les utiliser de façon conjointe et de rendre plus cohérents et plus efficaces les programmes qui les traitent. 112 Chapitre 4 Nous détaillerons au chapitre 6 les différentes solutions techniques qui nous ont permis de formaliser au plan informatique les mécanismes observationnels décrits ci-dessus. Il est fait appel à des “frames” comme base de la structure. les frames sont des “objets” possédant des attributs propres. Chaque attribut peut prendre une ou plusieurs valeurs possibles (dans une liste, éventuellement hiérarchisée, s'il s'agit de valeurs symboliques ; dans un intervalle pour les valeurs quantifiées) ; une fois valué, l'attribut exprime un caractère décrit ou trait. Quand les objets correspondent à des sous-parties (mais pas à des points de vue), leur absence constatée est enregistrée comme significative. Les mécanismes de spécialisation et de particularisation sont classiquement traduits par l'instanciation de “classes” (au sens informatique du terme) avec héritage. Le mécanisme d'itération implique quant à lui la mise en œuvre d'une logique du premier ordre, avec l'utilisation de “variables”. Enfin les conditions contextuelles sont exprimées sous forme de règles ou de démons. Il est ainsi possible, grâce au recours à des méthodes de représentation des connaissances issues de l'intelligence artificielle, de formaliser des descriptions aussi complexes que l'exige la “vérité” de la Nature, sans biais de transposition, sans avoir recours à la subjectivité, et limitant la perte d'information autant que voulu. Il existe un bon moyen de s'assurer de la qualité des descriptions ainsi obtenues. Il suffit en effet de comparer ces descriptions, produites sous leur forme rédigée en langage naturel, avec celles directement réalisées par les spécialiste du domaine. Il est très facile d'évaluer alors les défauts des unes et des autres ; ceci indépendamment du fait que les descriptions “conformes” (au modèle descriptif) possèdent l'énorme avantage d'être comparables entre elles et aisément mobilisables. 4.6 Illustration sur les données des éponges marines 4.6.1 Acquérir l’observable Représenter le modèle descriptif, c'est-à-dire acquérir l’observable, est l’étape la plus importante de la conception des systèmes de détermination. De la qualité du modèle descriptif dépendra la qualité des descriptions et, par voie de conséquence, la qualité des classifications et des déterminations futures. Le modèle descriptif regroupe toutes les connaissances observables d'un individu du domaine des Hyalonema. Les objets du modèle correspondent aux différents composants descriptifs de cet individu. L'élaboration de ce modèle est un processus mettant en jeu les connaissances de l'expert du domaine et le cogniticien chargé de représenter ces connaissances dans la syntaxe du langage basé sur les frames (voir § 6.4.2). Ce processus peut être itératif dans la mesure Le rôle central des descriptions en sciences naturelles 113 où des corrections sur le modèle se révéleront souvent nécessaires après la phase d'exploitation de celui-ci. Cette première étape s'appuie sur l’expérience de l’expert, c'est-à-dire sur ses observations initiales : la genèse de l’observable se fait donc forcément à partir de l’observé préexistant. Il est très important que le spécialiste focalise son attention à ce niveau car là se trouve reproduite une grande partie de son expertise qui sera ensuite utilisée par les outils. L’expert doit faire une analyse exhaustive de la variabilité de l’observé, afin d’être en mesure de synthétiser un modèle complet de l’observable. Cette phase est bien évidemment contraignante mais elle permet d’éviter des retouches futures du modèle, qui ne devront être que locales et ne pas affecter sa structure globale. Les logiques de description que nous avons introduites précédemment montrent les différents aspects théoriques de la modélisation d’un domaine biologique. Plus pratiquement, ces aspects se retrouvent à différents niveaux dans la conception d’un modèle descriptif tel que celui sur le Genre Hyalonema. Les concepts descriptifs n'ont pas le même niveau sémantique, certains se plaçant au niveau de la décomposition d'un domaine, d'autres au niveau d'une description locale d'un composant du domaine. C'est pourquoi il est très important de les différencier dans l'optique de construire un questionnaire ayant la qualité d'un bon guide d'observation. Nous avons conçu le modèle observable à trois niveaux de description : objetattribut-valeur que nous explicitons dans les trois paragraphes suivants. Ensuite, nous caractérisons chacun de ces trois niveaux plus précisément, ce qui constitue notre méthode d’élaboration du modèle descriptif. 4.6.2 Décomposition de l’entité globale en objets Ce procédé correspond à la logique de composition (§ 4.4.2). Cette logique naturelle introduit la relation de dépendance entre les objets. En effet, le mécanisme le plus évident consiste à partitionner la description en sousdescriptions plus ou moins indépendantes les unes des autres et que l'on appelle des descriptions locales. Ceci est obtenu en décomposant l'entité physique observable en sous-parties, chacune d'elles donnant accès à ses propres sousdescriptions. Nous avons déjà mentionné au chapitre 3 qu’à l’échelle d’une description individuelle, l’objet équivalait à un composant de l’individu. Par exemple, une éponge est une entité constituée de parties physiques avec certaines relations entre elles, dont principalement la relation de sous-partie. On décomposera donc l'éponge en différentes sous-parties décrites localement par des caractéristiques propres. Cette décomposition suit le principe logique qui veut que l'on décrive les objets en allant du plus général au plus particulier. 114 Chapitre 4 Ex : l’éponge possède un corps et un pédoncule, le corps est constitué de... 4.6.3 Recherche des attributs de chaque objet Parmi les faits observables d'un domaine, il y a les objets observables liés entre eux par des relations, ainsi que leurs caractères observables (caractéristiques, propriétés, variables ou attributs) et les différents états possibles de ces caractères (valeurs d'attributs). Un objet observable est un élément de description qui possède des caractéristiques propres. Il est défini par son existence en tant que composant au sein de l'entité ou individu à analyser. Par opposition, les attributs n'existent pas par eux-mêmes sans référence à un objet préexistant. Chaque objet forme donc un tableau avec la liste de ses attributs propres dans autant de colonnes. Considérons l'attribut “taille” de l'objet “corps” de l’éponge. Cette “taille” n'existe pas sans faire référence à l'objet “corps”, alors que le “corps” existe par lui-même dès lors que l'on considère le domaine des Hyalonema. Pour différencier les objets des attributs pour un domaine particulier, il suffit de se poser les questions suivantes : “Y a t-il un... objet ?” et “Y a t-il un objet ayant tel ... attribut ?”. De même, nous aurions pu tout aussi bien considérer la taille de l'objet “amphidisques” qui est un élément microscopique de l’éponge. Bien qu’ayant le même nom de propriété, le domaine de définition des valeurs prises par l'attribut est différent. La liste des valeurs possibles de l'attribut dépend donc de l'objet considéré. 4.6.4 Recherche des valeurs de chaque attribut Une valeur observable correspond à un état possible de l’attribut de l’objet pour l’individu à observer. L’ensemble des états possibles de l’attribut pour l’objet observable forme l’espace d’observation noté O. Cet espace relatif à l’objet étudié ne doit pas être confondu avec le référentiel (ou domaine de définition) qui est l’ensemble de tous les symboles relatifs à l’attribut pris isolément. Par exemple, le référentiel de l’âge en années est l’ensemble des réels positifs alors que l’espace d’observation de l’âge d’un humain est un sous-ensemble de R+ tel que [0, 120?]. Les valeurs d’un attribut devraient avoir comme caractéristique d’être mutuellement exclusives (sans recouvrement). Cette propriété est nécessaire pour permettre de comparer sans ambiguïté des descriptions [Vignes, 1991]. Ainsi pour tout attribut, un objet ne possède normalement qu’un seul état. Si au moment de son observation, on lui associe plusieurs valeurs, ou un intervalle de Le rôle central des descriptions en sciences naturelles 115 valeurs, cela ne peut traduire qu’une imprécision et non pas une gamme de variation (voir § 4.6.9). La valeur est reconnaissable en répondant à la question “Y a t-il un objet avec un attribut qui vaut... valeur ?” Résumé Pour créer un objet, un attribut ou une valeur, on doit donc se poser les trois questions suivantes : ◊ l’objet est-il un composant descriptible de l’objet ... ? ◊ l’attribut est-il une caractéristique substantive propre de l’objet ... ? ◊ la valeur est-elle un qualificatif de l’attribut ... ? Certains auteurs comme Lebbe [Lebbe, 1991] appellent nos valeurs des attributs (avec une acception linguistique), nos attributs des qualités, les objets des sujets et la composition “qualité[sujet(s)]” est appelé un descripteur (connotatif au sens de [Colless, 1967]). Nous préférons employer la terminologie objet-attributvaleur des langages de frames car nous pensons qu’elle permet de mieux mettre en valeur les trois niveaux grammaticaux de description de l’observable. 4.6.5 Les propriétés d’un objet observable 4.6.5.1 Statuts Tout objet observable créé est par nature potentiellement présent : par la suite, il peut donc être décrit (la présence d’un objet est la condition nécessaire et suffisante à sa description). De plus, au moment de la création d’un objet observable, on peut définir ses alternatives d’observation possibles (1, 2 et 3) ainsi que sa sémantique (4) lors des futures descriptions : 1) l’absence de l’objet peut ou non revêtir une signification classificatoire, 2) lorque le contexte de l'observation ne permet pas de le décrire, la réponse “inconnu” est autorisée ou non, 3) on pourra ou non en observer différentes sortes, 4) l’objet a une signification classificatoire, ou au contraire il n’intervient que pour structurer le domaine. 1) L’absence d’un objet est une information à prendre en compte pour deux raisons : la première est qu’elle permet d'inférer des règles implicites très fortes : les sous-parties d'un objet absent sont nécessairement absentes. La seconde est qu’elle possède un sens pour la classification. 116 Chapitre 4 Considérons l'objet “amphidisques”, ce micro élément peut être absent d'une éponge de manière naturelle, ce qui peut être une information discriminante. Inversement, le pédoncule de l’éponge est un objet qui ne peut être naturellement absent d’un individu (dans le cas des Hyalonema) : le statut “absent” n’est pas admissible. Il arrive néanmoins que cet objet ne soit pas présent pour un spécimen à observer (du fait que le pédoncule a été arraché du corps lors de la récolte par exemple). L’absence porte alors la même signification que l’inconnu dans ce contexte car l’expert sait qu’il a existé un pédoncule au spécimen mais on ne peut pas le décrire (voir statut 2). 2) La possibilité pour un objet d'être inconnu est en principe valable pour tous les objets dans notre application ; c'est pourquoi cette information n'apparaît pas explicitement dans le modèle descriptif. La réponse “inconnu” traduit le fait qu’il est impossible de décrire l’objet à cause du contexte d’observation : nous décrivons un spécimen à partir d’une photo où l’objet à observer est masqué ou dans l’ombre, le grossissement du microscope est insuffisant pour voir les détails de l’objet, etc.. Cependant, il pourrait avoir un sens que la réponse “inconnu” ne soit pas autorisée pour certains objets, ce qui serait une manière de forcer la description locale d’un objet. Par exemple pour le corps de l’éponge, il ne serait pas autorisé de répondre “inconnu” pour cet objet car l’expert n’accepterait pas une description limitée au pédoncule d’une éponge, alors que la plupart des caractères majeurs sont ceux du corps (cette situation ne s’est d’ailleurs jamais observée concrètement dans les descriptions effectuées sur les Hyalonema). Comme pour l’absence d’un objet, la reconnaissance du fait qu’une partie est inconnue permet d’inférer que ses sous-parties sont inconnues. 3) Un objet multiple est un objet dont plusieurs sortes peuvent voisiner dans une même description. La multiplicité d’un objet ne doit pas être confondue avec sa cardinalité. Elle signifie le nombre de sortes possibles d’objets du domaine alors que la cardinalité veut dire le nombre possible de cet objet. La multiplicité d'un objet peut s’exprimer à l'aide de deux chiffres : le premier indique la multiplicité minimale de l'objet, le second sa multiplicité maximale. Par exemple, si l’on voulait décrire les membres d’un humain, on pourrait dire que la cardinalité de cet objet est comprise entre 0 et 4 : il s’agit du nombre possible de membres (1, 2, 3 ou 4) en tenant compte des accidents. A l’opposé, la multiplicité de [2, 2] indiquerait le nombre de sortes possibles de membres à décrire chez cet humain : les pieds, les mains. Par contre, pour les singes, la multiplicité pourrait être 1 et 2 selon qu’il s’agit d’un quadrumane (quatre mains) ou d’un bipède (deux mains et deux pieds), et nous la noterions [1, 2]. Le rôle central des descriptions en sciences naturelles 117 La multiplicité d’un objet correspond à la logique d’itération (§ 4.4.6). Dans une même description, il peut être utile de faire apparaître plusieurs instances (“sortes”) d’un même objet sans avoir à les nommer explicitement. On a constaté en effet que le nom d’un objet observable n’est pas toujours maîtrisé par un observateur du domaine autre que l’expert (voir § 4.6.7). C’est pourquoi l’utilisateur doit avoir la possibilité de décrire autant de sortes d’objet qu’il le souhaite dans la limite de la multiplicité maximale imposée par l’expert. Lorsque chaque type d’objet est faiblement différencié par rapport aux autres, c'est-à-dire avec des différences minimes liées au positionnement, à la symétrie (par exemple les pouces des mains), au nombre, on parle alors de variation méristique [Perinet-Marquet, 1993] [Encyclopédie Quillet, 1993]. Cette variation n’affectant pas la nature même de l’objet, la logique d’itération est la plus appropriée pour décrire différentes sortes sans les nommer. Inversement, si la variation correspond à une différentiation2 suffisamment forte pour être reconnue par la grande majorité des observateurs, il est plus approprié d’utiliser la logique de spécialisation (par exemple différencier et décrire séparément les pieds et les mains chez le bipède). 4) Nous dirons qu'un objet est fictif quand il ne correspond pas à une caractéristique discriminante du domaine, mais que sa vocation est d’aider à la structuration du domaine. Dans le cas contraire, on dit qu'il est significatif (l’objet correspond à une réalité physique intéressante pour la discrimination). Les objets fictifs sont utiles à la structuration du domaine et à la fabrication d’un bon guide d’observation. Prenons l'exemple des objets fictifs “macro constituants” et “micro éléments” : il est certain que ces concepts ne sont pas importants pour la classification des espèces de Hyalonema, ils n’ont pas de signification classificatoire3 . Par contre, pour structurer le domaine, ces objets sont intéressants car ils permettent de ne pas présenter au même niveau d’observation des points de vue macro et microscopiques, ce qui correspond à un contexte différent de description des objets. Au statut fictif de l'objet correspond la logique des points de vue (§ 4.4.3). 4.6.5.2 Attributs Les attributs sont des propriétés propres à l'objet, ils sont caractérisés par : ❶ un type 2 3 Morphologique et/ou fonctionnelle. On ne doit pas discriminer deux groupes d’éponges sous prétexte que les préparations microscopiques étaient disponibles pour l’un et pas pour l’autre. 118 Chapitre 4 Un attribut de type numérique peut être un entier naturel ou un réel et sa valeur peut être soit simple soit un intervalle. La fourchette de valeurs que l'utilisateur indique pour un intervalle représente l'imprécision globale attachée à la mesure de l'attribut numérique. Un attribut de type qualitatif peut être nominal ou classifié en référence à la manière dont sont structurées les valeurs possibles (voir le paragraphe suivant). Un attribut texte est une information supplémentaire sur le cas à décrire mais qui ne devra pas être prise en compte lors du traitement des cas observés. Il s'agit simplement d'une chaîne de caractères utile à titre documentaire pour la maintenance de la base de cas. Par exemple, la longitude est un attribut commentaire (129° 57’ E) de l’objet fictif contexte qui n’est pas utilisé lors de la discrimination (figure 4.1) : Fig. 4.1 : Exemple de l’attribut “longitude” de type “texte” Parmi les attributs de type texte, on mentionnera l’attribut “image” qui permet de référencer un numéro correspondant à une image numérisée illustrant tel ou tel objet décrit d’un cas particulier. Un attribut de type booléen est un attribut dont la valeur est soit oui, soit non : par exemple, le pédoncule de l’éponge peut être soit torsadé, soit non torsadé (figure 4.2) : Fig. 4.2 : Exemple d’attribut de type “booléen” Remarque : le point d’interrogation permet de montrer que l’adjectif torsadé peut être transformé en un nom d’attribut à qualifier par la réponse alternative ouinon. Il se trouve que l’expert ne perçoit pour l’objet pédoncule que l’utilité de décrire le fait qu’il peut être torsadé ou non. Nous aurions pu tout aussi bien choisir un véritable attribut comme l’aspect du pédoncule avec un type nominal et les valeurs “torsadé”, “non torsadé”. Mais si plus tard, l’expert découvre qu’il existe des spécimens avec un pédoncule d’aspect tressé, ou s’il s’intéresse à la résistance ou à la longueur du Le rôle central des descriptions en sciences naturelles 119 pédoncule, il faudra homogénéiser la description de cet objet en introduisant l’aspect, la résistance et la longueur comme autant d’attributs. ❷ des valeurs possibles Il s'agit de l'ensemble parmi lequel un attribut prend sa valeur. Ces valeurs sont définies par : ◊ une unité de mesure et un intervalle (minimum-maximum) lorsque l'attribut est numérique, exemple : l'attribut profondeur de l'objet contexte (indiquant la profondeur à laquelle a été récoltée l’éponge) est compris entre 100 et 5000 m (figure 4.3) : Fig. 4.3 : Exemple d’attribut de type “numérique” ◊ une liste (ordonnée ou pas) lorsqu'il s'agit d'un attribut nominal, des valeurs numériques en nombre restreint pouvant aussi apparaître comme valeurs d’un attribut nominal, exemple : l'attribut couleur du corps de l’éponge peut prendre les valeurs blanchâtre, grisâtre, autre (figure 4.4) : Fig. 4.4 : Exemple d’attribut de type “nominal” Remarque : La réponse “autre” renvoie à un commentaire en texte libre (cf. § 4.6.5.3) ◊ par une hiérarchie de classification dans le cas d'un attribut classifié. 120 Chapitre 4 Exemple : l'attribut “forme” du corps de l’éponge peut être classifié de la manière suivante (figure 4.5) : Fig. 4.5 : Exemple d’attribut de type “classifié” On aurait pu représenter cette hiérarchie sous forme d’arbre (cf. § 4.4.6). ❸ une valeur par défaut Une valeur par défaut correspond éventuellement à la valeur la plus fréquemment observée, elle est mentionnée par l'expert dans le modèle mais dans le questionnaire, l'utilisateur peut lui substituer une autre valeur pour un cas observé. Exemple : la couleur du corps des Hyalonema est blanchâtre par défaut. En fait, toutes les Hyalonema sont blanchâtres. Il a cependant été jugé utile de rentrer cette information, non discriminante, pour le cas ou le domaine serait étendu à d’autres Genres d’éponges marines, ou la couleur est connue comme un caractère distinctif. Le rôle central des descriptions en sciences naturelles 121 ❹ un choix Il faut préciser si l’utilisateur a droit à une seule réponse (choix unique) ou à plusieurs (choix multiple). S’il a droit à plusieurs réponses, cela lui permet de traduire une incertitude : l’expert reconnaît alors qu’il n’est pas toujours possible à l’utilisateur de prendre une décision univoque entre les valeurs possibles proposées. Ceci est typique pour les couleurs par exemple (quelle est la différence entre brun et marron ?). Le choix multiple permet à l’utilisateur de prendre une décision partielle (exprimer un doute entre des éléments d’un sousensemble de valeurs) : ex : la forme du corps de l’éponge prend deux valeurs : trompette”. “en-cône, en- Il s’agit bien là d’une imprécision sur la forme d’un objet particulier (la virgule possède la sémantique du “ou”) et non pas de la traduction d’une présence simultanée de deux valeurs. Pour que la présence simultanée soit valide, il faut qu’elle soit dûment répertoriée dans la liste des valeurs possibles : “en-cône+entrompette” par exemple. Nous rappelons que toutes les valeurs sont mutuellement exclusives et que toutes les combinaisons valides doivent être introduites dans la liste des valeurs possibles. Si aucun choix ne convient à l’utilisateur, il doit répondre “inconnu” et non pas biaiser la description en associant des valeurs avec la sémantique du “et” (présence simultanée de deux valeurs non ambiguës) alors qu’elles seront interprétées au niveau du traitement comme une imprécision sur le choix d’une valeur unique. Cette remarque n’est pas anodine. Elle oblige l’expert à concevoir un modèle robuste pour éviter les descriptions ambiguës. Cela est d’autant plus vrai quand la description doit porter sur un concept représentant en fait un ensemble d’objets d’une même sorte et non pas un ensemble singleton (voir § 4.6.9). Par exemple, dans une application sur le diagnostic des maladies de la tomate, au niveau de la localisation de la tache sur foliole, le concept de tache représente une population de taches homogènes (de la même sorte). Si ces taches sont positionnées à l’extrémité de la foliole et entre les nervures, il faut représenter la valeur “extrémité+entre-nervures” explicitement. De plus, l’expert doit prévoir que l’attribut ne soit pas sémantiquement équivoque : par exemple, la localisation des amphidisques dans le corps de l’éponge donnait droit à un choix multiple avec comme valeurs possibles : éparses, périphériques, à-l’intérieur. Nous nous sommes aperçu de l’ambiguïté du terme “éparses” qui représentait plutôt un attribut de densité (quantitative) à la place d’une véritable localisation topographique (qualitative). Le choix multiple était donc un biais pour donner deux valeurs simultanément au niveau d’un seul attribut polysémique. Nous avons remplacé le terme “éparses” par “partout” et nous avons remplacé le choix multiple par un choix unique, ce qui fournit une interprétation bien meilleure et sans confusion (figure 4.6) : 122 Chapitre 4 Fig. 4.6 : Exemple d’attribut non polymorphe Selon notre approche, pour qu’un attribut soit cohérent, il faut que ses états soient des réponses alternatives à une question [Lebbe, 1991]. La cohérence du choix des valeurs possibles d’un attribut est un facteur essentiel de la robustesse du système de détermination. 4.6.5.3 Autres propriétés Ces dernières caractéristiques sont plutôt de nature ergonomique, elles permettent de structurer le dialogue avec l’observateur dans le questionnaire pour chaque objet et chaque attribut : ❶ genre de l’objet La connaissance du genre de l’objet dans le modèle descriptif permet d’éviter à l’expert de fournir explicitement la question associée à chaque objet. Ces questions sont de nature répétitive et gagnent à être générées automatiquement et de manière lisible à partir de la connaissance des genres de chaque objet. Il s'agit du genre, au sens grammatical, du nom pris par un objet, à savoir : masculin singulier, masculin pluriel, féminin singulier et féminin pluriel. Ex : Au lieu de poser la question “Caractéristiques de l’objet corps de l’objet Hyalonema ?” qui est indépendante du genre des deux objets cités, on pourra construire automatiquement deux questions relatives aux caractéristiques et aux composants de l’objet “corps” : “Caractéristiques du corps de la Hyalonema ?” et “Composants du corps de la Hyalonema ?” relativement à la description locale du corps et à celle de ses sous-parties. ❷ question associée à l’attribut Il s'agit de la question posée dans le questionnaire qui permet de comprendre le sens des mots associés (attribut et valeurs possibles) et d’y répondre précisemment par le choix d’une valeur appropriée. L’écriture de cette question n’est pas automatisable du fait justement qu’elle doit être précise : Par exemple, pour la localisation des amphidisques de l'éponge, la question pourrait être : "Où ces amphidisques sont-ils localisés ?" Le rôle central des descriptions en sciences naturelles 123 ❸ Commentaires et remarques Il peut néanmoins se trouver que dans le questionnaire, au moment ou l’utilisateur désire décrire un objet, il ne comprenne pas le sens de la question ou encore le sens du vocabulaire utilisé par les attributs et les valeurs. Il peut se trouver aussi en face d’un spécimen à décrire dont aucun des états proposés pour l’un de ses objets ne correspond à son observation. Au lieu de répondre “inconnu”, il pourrait manifester son incompréhension en rédigeant un texte libre dont l’expert pourra par la suite tenir compte. Cette faculté est importante pour instaurer un dialogue entre l’expert et les utilisateurs de son modèle descriptif car cela peut lui permettre une rentrée d’informations pertinentes auxquelles il n’avait pas pensé plus tôt. Par exemple, la valeur “autre” de la figure 4.4 pourrait renvoyer à un commentaire et l’observateur y indiquerait la couleur du spécimen qu’il décrit. 4.6.6 Niveau de précision d’un objet 4.6.6.1 Spécialisation Lorsque l'on veut faire intervenir de la connaissance supplémentaire sur les objets, les attributs et sur les valeurs sous forme d'une plus grande précision, on introduit le lien de spécialisation. Cela permet de construire des regroupements utiles afin de faire hériter les propriétés des objets les plus généraux vers les objets les plus particuliers : un objet se spécialise en un “sous objet” et toutes les caractéristiques communes aux deux objets sont “remontées” au niveau de l’objet le plus général. On aboutit ainsi à former des taxonomies d’objets selon un certain degré de généralité (ou de précision) (figure 4.7) : Fig. 4.7 : Exemple de spécialisations d’un objet Pratiquement, les objets les plus bas dans la taxonomie héritent des propriétés (attributs et valeurs possibles) des objets situés plus hauts. Il en est de même des composants de l'objet plus général. Dans le cadre de cette logique de spécialisation (§ 4.4.4), il s’agit de “masquer” les attributs situés plus haut dans la hiérarchie en restreignant le domaine des valeurs possibles de chacun de ces attributs. 124 Chapitre 4 Dans l’exemple ci-dessus, les macramphidisques, les mésamphidisques et les micramphidisques sont des spécialisations d’amphidisques, c'est-à-dire que l’intervalle des tailles possibles pour chaque spécialisation est théoriquement restreint par son type : macro- (500 à 1000 mus4 ), méso- (100 à 500 mus) et micro- (10 à 100 mus). Nous verrons que les spécialisations imposent des contraintes sur la description, ce qui peut engendrer des descriptions erronées (cf. § 4.6.7). 4.6.6.2 Particularisation Au contraire, dans la logique de particularisation (§ 4.4.5), on élargit le domaine en définissant de nouveaux attributs et de nouvelles valeurs particulières définies plus bas et qui n’apparaissaient pas aux niveaux supérieurs. Cette logique est adaptée au traitement des exceptions. Comme exemple de particularisation, prenons la description de l'objet “Mammifère” dans une application sur la reconnaissance de différents types de Mammifères. L’objet “Ours” est une spécialisation de l'objet “Mammifère” alors que l’objet “Ornithorynque” est une particularisation de l’objet “Mammifère”. En effet, en plus des propriétés qu'il aura héritées de l'objet “Mammifère”, à savoir de posséder des mamelles, des poils, d’avoir quatre membres, une queue..., l'objet “Ornithorynque” aura ses attributs particuliers (avoir un bec, des pieds palmés, pondre des œufs, etc.). Ces attributs ne sont pas introduits plus haut dans la hiérarchie au niveau de l’objet “Mammifère” car ils fausseraient la juste vision que l’on peut avoir des Mammifères en général, qui n’ont ni bec, ni pieds palmés, etc.. Les processus de spécialisation et de particularisation des objets sont des caractéristiques des langages à objets qui permettent de tenir compte du contexte d’observation. Ainsi s’assure-t’on que les caractéristiques examinées pour un contexte donné sont toujours pertinentes ; or la pertinence est une composante importante de la robustesse du modèle descriptif. 4 Micromètres. 125 Le rôle central des descriptions en sciences naturelles 4.6.7 Possibilité de multi-instanciation de chaque objet Dans une même description, il peut être utile de faire apparaître plusieurs instances (“sortes”) de la même partie sans avoir à les nommer explicitement. Ce constat provient du fait que le nom d'un objet observable n'est pas toujours maîtrisé par un observateur autre que l'expert. Le vocabulaire qu'il utilise pour le désigner est sujet à un certain arbitraire dont l'expert a conscience : il ne souhaite pas contraindre l'observateur avec son propre vocabulaire spécialisé (“charabia” scientifique). L'exemple pour comprendre cette idée est illustré sur la figure 4.8 suivante : ... : lien de sous-partie macramphidisques : lien de spécialisation ... ... ... micro-éléments amphidisques localisation taille densité ... mesamphidisques ... ... ... micramphidisques ... ... ... Fig. 4.8 : Exemple de hiérarchie d'objets non instanciés Ici, les termes de macramphidisques, mésamphidisques et micramphidisques sont des dénominations de spécialiste qui désignent des sortes d'amphidisques dont le type dépend principalement de la taille. Or, il s'agit d'une spécialisation qui n'a pas de sens dans certains contextes d'observation. Il suffit d'imaginer deux types d'éponges à décrire dont le premier est de taille cinq fois plus grande que le second. Premièrement, un utilisateur décrivant l'échantillon de grosse taille pourrait très bien nommer macramphidisque un amphidisque qui serait en fait un micramphidisque pour l'expert. Ce problème est bien connu des systématiciens sous le terme du respect de l’homologie entre objets. De plus, lors de l'induction, le système serait incapable de distinguer les différents types d'amphidisque selon leur taille, mais procèderait à l'unification en acceptant le caractère isomorphe des objets dont on n’est pourtant pas certain de la correspondance structurelle. La subjectivité du nom de ces spécialisations ou le fait que ce nom ne soit pas maîtrisé par l'utilisateur final du système nous oblige à définir différentes sortes d'un même objet “amphidisque” (figure 4.9). Le non spécialiste peut ainsi décrire autant de sortes d'amphidisques qu'il le souhaite, de manière plus souple. Le nombre maximal d'instances ou de sortes possible pour un objet est néanmoins fixé préalablement par l'expert dans le modèle descriptif, il s'agit de la multiplicité de cet objet (§ 4.6.4.1). On sera donc amené à décrire plusieurs instances en nombre limité d'une même partie au sein d'une description 126 Chapitre 4 d'éponge marine, chaque “sorte” suivant un schéma analogue de description et ne se distinguant que par des différences méristiques (§ 4.6.5.1.3) : : lien de sous-partie : lien d'instanciation amphidisques(1) amphidisques(2) micro-éléments amphidisques localisation taille densité type * amphidisques(3) amphidisques(4) * "type" devient une caractéristique facultative de l''objet amphidisques prenant pour valeurs possibles macramphidisque, mesamphidisque et micramphidisque (s'il est connu) Fig. 4.9 : Exemple de hiérarchie d'objets instanciés Remarque : il pourra être intéressant de comparer a posteriori les réponses des utilisateurs sur les tailles des amphidisques et leur type avec la catégorisation effectuée par l'expert a priori. Une classification locale au niveau de l'objet pourrait de même permettre de connaître l’acception de termes selon la majorité des utilisateurs biologistes. La multi-instanciation d'objets correspond à la logique d'itération (§ 4.4.6). 4.6.8 Définition des dépendances inter / intra objets Les différentes parties peuvent être plus ou moins dépendantes les unes des autres : 1 - On a vu précédemment que l'absence d'une partie ou l'ignorance sur son existence implique l'absence ou l'ignorance sur l'existence de ses sousparties, 2 - Certaines valeurs d'une caractéristique d'une partie peuvent aussi rendre inobservable une ou plusieurs de ses sous-parties, 3 - Certaines valeurs d'une caractéristique d'une partie peuvent conditionner la ou les autres valeurs d'une autre caractéristique d'une autre partie (ou de la même), 4 - Certaines valeurs d'une caractéristique d'une partie peuvent masquer l'accès à une ou plusieurs caractéristiques de cette partie ou de ses sousparties. Cela va se traduire par l'écriture de règles ou contraintes déclenchées localement sur certaines parties et qui vont agir sur l'existence d'autres parties ou de Le rôle central des descriptions en sciences naturelles 127 certaines de ses caractéristiques ou bien encore sur la mise à jour de certaines valeurs attachées aux caractéristiques de ces parties. Ces règles expriment les conditions contextuelles (§ 4.4.7) d’accès aux objets et attributs pour pouvoir les décrire et permettent le maintien de la cohérence dans le questionnaire ou guide d’observation. 4.6.9 Niveau de généralité d’un objet Nous avons déjà mentionné au chapitre 3 qu’un objet biologique prenait deux sens différents selon le point de vue d’observation de l’utilisateur : soit il s’agit d’un individu d’une population, soit c’est un composant d’un individu (voir l’exemple des Mammifères au § 3.6). Parmi les objets, on peut distinguer aussi ceux dits “observables” et ceux dits “observés”. Les premiers correspondent à l'étape d'acquisition du modèle descriptif alors que les seconds concernent la phase de description. Chaque modèle descriptif est constitué d'objets observables alors que chaque description est constituée d'objets observés. Dans le chapitre 5, nous allons formaliser les descriptions d’objets observés pour les mathématiciens. Traditionnellement, les objets observés à analyser forment une ligne dans un tableau de données classique. Cette disposition ne permet pas facilement de faire la distinction entre l'objet au sens de l'individu et l'objet au sens du composant. Du fait de l'approche par structuration du domaine que nous avons conçue, chaque objet observé forme un tableau avec ses propriétés propres. L'individu est alors décrit par une suite de tableaux reliés entre eux par la relation de composition : ces objets correspondent aux descriptions locales et sont appelés objets composites. Pour chaque description locale d’objet, on retrouve la liste des attributs propres ainsi que les valeurs affectées par l’utilisateur du questionnaire. La valeur vient s’inscrire dans la case du tableau de l’objet à l’intersection entre la colonne de l’attribut et la ligne de l’individu étudié. La valeur doit véhiculer une information pertinente mais non nécessairement discriminante. C’est pourquoi toute réponse inconnue pour un attribut donné dans le questionnaire n’est pas répertoriée dans la description de l’individu : la réponse “inconnu” n’est pas une information en biologie !5 5 Dans d’autres domaines, elle pourrait avoir un sens. Par exemple, et par boutade, le fait de répondre “inconnu” à la question “Quel est votre âge ?” n'est elle pas réputée caractéristique de la population féminine ? 128 Chapitre 4 Il est encore important de préciser pour chaque objet sur lequel porte une description s’il est : 1) unique et concret, 2) synthétique, résumant de manière plus ou moins statistique un ensemble d’objets individuels. 4.6.9.1 Représentant unique Dans le premier cas, nous avons affaire à une description d’un objet particulier avec les conséquences suivantes : 6 ◊ il s’agit d’une véritable description, l’objet ayant comme valeur d’attribut un seul état observé de l’espace d’observation qui résume toute la connaissance, ◊ l’extension en retour de cette description est l’objet lui-même, la description étant suffisamment exhaustive et précise pour ne représenter que l’objet lui-même (ou ses clones), ◊ chaque variable de l’objet a une valeur nécessairement unique mais plus ou moins précise 6 . Si la valeur est précise, cela n’empêche pas qu’elle puisse être erronée, c'est-à-dire que l’observateur puisse attribuer un mauvais état parmi ceux proposés, ◊ L’imprécision se traduit par une distribution de possibilité au niveau des valeurs prises par les objets [Haton et al., 1991]. Ces possibilités sont des hypothèses (un ensemble d’états) émises par l’observateur qui traduisent son opinion pour “encadrer” le véritable état qu’il n’est pas en mesure de donner. A chaque hypothèse peut être associée une vraisemblance (sous forme de degré de croyance par exemple) pour renforcer le poids de certaines d’entre elles [Dubois & Prade, 1987], ◊ L’objet peut aussi bien être l’individu lui-même qu’un composant de cet individu. Telle valeur de la taille du spécimen d’éponge ainsi que celle de la longueur du pédoncule de l’éponge sont deux descriptions d’objets uniques, Si la valeur n’est pas unique (représentée par un intervalle numérique ou bien par un choix multiple), c’est parce que l’observateur doute ou bien n’a pas la possibilité de prendre une décision univoque entre les valeurs possibles proposées. L’incertitude sur la valeur peut être due soit à l’utilisation d’appareils de mesure pour les attributs numériques, soit laissée à l’appréciation subjective de l’observateur. Cette imprécision est néanmoins une décision partielle : il faut en tenir compte puisqu’elle exclut les autres états possibles. C’est une information comparée à l’indécision totale de la réponse «inconnu» qui exprime la disjonction de toutes les valeurs possibles ou encore une autre valeur non représentée dans l’espace d’observation (non exhaustivité du modèle descriptif). Le rôle central des descriptions en sciences naturelles 129 4.6.9.2 Représentant multiple Dans le second cas, nous sommes en présence d’une “description” de classe d’objets avec les autres conséquences suivantes : ◊ il s’agit d’un regroupement de descriptions d’objets d’une même sorte qui correspond en fait à une définition (§ 3.2.1.2), dont les valeurs d’attribut traduisent une distribution d’états (la variabilité intra-classe), ◊ l’extension en retour est l’ensemble des objets de la sorte couverts par la “description” de la classe : elle est entachée d’une certaine généralisation, ◊ Chaque valeur prise par les attributs de la classe est fondamentalement multiple7 (sauf pour une classe de clones) et exprimée par un intervalle de variation pour les attributs numériques (ou par une disjonction de valeurs pour les attributs nominaux), ◊ La logique des probabilités permet d’apprécier quantitativement la distribution de fréquence des objets au sein de la classe, ce qui demande l’observation d’échantillons représentatifs de la classe ne variant pas dans l’espace et dans le temps, ou bien une estimation subjective de l’expert plus facile à mettre en œuvre, ◊ L’objet peut être aussi bien une classe d’individus qu’une classe de composants de cet individu. Dans le premier cas, il s’agit par exemple de la description synthétique du sous-genre Oonema (appartenant à Hyalonema) regroupant une population de spécimens. Dans le second cas, c’est la description de l’ensemble des amphidisques du corps d’un unique représentant de ce Sous-Genre. 4.6.10 L’imprécision d’observation On trouve de l’imprécision dans les observations aux deux niveaux de l’acquisition des connaissances en amont de la phase de traitement des descriptions : le premier niveau concerne l’expert et l’acquisition de l’observable, le second niveau concerne le descripteur et l’acquisition de l’observé. 7 Les réponses multiples expriment ici une conjonction d’états simultanés : les objets sont distribués simultanément sur un sous ensemble de l’espace d’observation pour chaque attribut. 130 Chapitre 4 4.6.10.1 Au niveau de l’observable Nous avons déjà eu l’occasion de montrer l’attention qu’il faut apporter au choix des valeurs en liaison avec la sémantique de l’attribut (§ 4.6.5.2.4 sur le choix unique ou multiple d’un attribut). De plus, l’expert doit prendre garde d’associer les attributs au niveau des bons objets. Considérons les deux descriptions d’objets suivantes : - couleur de la robe du zèbre = blanc ∧ noir - couleur d’un feu de signalisation routière = orange ∧ rouge Les associations (objet = robe, attribut = couleur, valeurs = blanc, noir) et (objet = feu, attribut = couleur, valeurs = orange, rouge) sont inappropriées car elles permettent d’obtenir des conjonctions de valeurs qui indiquent la présence simultanée de deux états, ce qui est contraire au principe d’états mutuellement exclusifs. En fait, il ne peut pas y avoir d’ambiguïté sur la couleur si l’on fait porter l’attribut sur l’objet adéquat, à savoir les rayures (ou zèbrures) du zèbre et les spots du feu de signalisation. On s’aperçoit alors qu’il existe deux sortes de rayures qui ont des couleurs bien définies, que ces rayures ne sont pas spécialisables autrement que par les noms de “rayures blanches” et “rayures noires”, alors que pour les feux de signalisation routière, il existe trois sortes bien définies à la fois par la couleur et par la position (en-haut, au-milieu, en-bas). Le modèle descriptif reflète un état de connaissance à un moment donné, il est censé alors être complet, ce qui permet de le définir comme une monographie de l’observable d’un domaine. La complétude est une qualité attendue du modèle alors que son imprécision est un défaut à éviter. Si le modèle est complet par rapport à un état de connaissances, cela n’empêche pas les connaissances sur les spécimens d’évoluer sous l’effet des nouvelles techniques d’observation. Ces techniques peuvent faire apparaître des erreurs de perception sur les descriptions antérieures qui ont été jugées pourtant précises à l’époque. Même si l’on a pu constater des périodes de stabilité dans l’histoire des descriptions, les apports de nouvelles techniques sont aujourd’hui considérables : par exemple, l’apparition du microscope électronique à balayage a remis en cause la perception des observateurs utilisant le microscope optique, les techniques génétiques apportent un point de vue nouveau sur les spécimens. Le renouvellement de plus en plus accéléré des techniques met en lumière la nécessité de mise à jour du modèle descriptif et des descriptions. Cela n’ôte rien à l’obligation d’obtenir un modèle de l’observable complet et précis, à l’origine de descriptions robustes. Le rôle central des descriptions en sciences naturelles 131 4.6.10.2 Au niveau de l’observé Une fois trouvée la manière de concevoir un modèle de l’observable robuste, il reste néanmoins la difficulté d’interpréter les observations elles-mêmes. L’imprécision est là aussi la source de faiblesse des descriptions. Elle dépend de plusieurs facteurs : 1) 2) 3) 4) 5) la nature des objets observés (représentant unique ou multiple cf. § 4.6.9), la qualité du matériel observé (fraicheur de l’échantillon, conservation), la qualité du mesurage des appareils, la qualité de perception de l’observateur, la qualité des outils de description (modèle descriptif, questionnaire), 1) En décrivant un objet qui représente en fait un ensemble, on introduit une imprécision due à la variation à l’intérieur de cette classe. Ce que l’on décrit est en fait l’objet “moyen” sélectionné parmi tous les objets observables de l’ensemble. Il s’agit par exemple du plant de tomate (individu) appartenant à la culture et dont les symptômes sont représentatifs de la maladie ou bien encore d’un spicule d’éponge (un composant) qui est un objet modal de la classe des spicules observée sur lamelle au microscope. Il est de toute manière évident que l’on ne va pas décrire toute la population matérielle de l’ensemble. Ce que l’on cherche à décrire, c’est un représentant prototypique d’une classe jugée homogène (à l’intérieur de laquelle la variation n’est pas importante). Ce représentant est choisi pour faire une pseudo-description qui va constituer en fait une définition de sa classe (§ 3.2.1.2). Le représentant prototypique permet de définir les propriétés les plus fréquemment rencontrées chez les membres de la classe : c’est un objet représentatif de la classe. L’observateur décrit ainsi ce représentant. Il conserve néanmoins la liberté plus ou moins consciente d’élargir l’espace d’observation de certains caractères pour couvrir la description d’autres objets. Inversement, lorsqu’un objet est un représentant unique d’une classe (par exemple un seul représentant d’une maladie dans la culture ou encore le collet d’un plant de tomate), le problème du choix de l’objet ne se pose pas, il s’impose. La situation au Muséum National d’Histoire Naturelle est différente : objets et individus sont bien différenciés : les objets ne sont pas des individus, ce sont les composants d’un individu. Face aux collections de spécimens et en fonction de l’objectif de classification de ces individus, deux types de descriptions sont préconisées : ◊ Pour chaque objet, s’il y a beaucoup de représentants qui peuvent être décrits localement, on choisit le représentant prototypique de l’ensemble, que l’on définit (ce n’est pas une véritable description). Le biologiste aura 132 Chapitre 4 donc tendance à synthétiser les descriptions d’objets, ce qui est normal compte tenu de l’objectif de classification des individus (et non pas des objets). ◊ Pour les individus à classifier au contraire, le biologiste va multiplier les descriptions de spécimens qu’il juge appartenir à la même classe afin d’éviter les synthèses de descriptions : chaque description de spécimen sera affectée de l’étiquette du nom de la classe. Regrouper ces spécimens en une seule description conduirait au risque de décrire sous un même nom d’Espèce des spécimens appartenant en fait à des classes différentes. Ce regroupement généralise et fait perdre de l’information. Par exemple, si on décrit un spécimen dont la taille des spicules est [5, 12] mus et un autre spécimen dont la taille des spicules est [10, 15] mus et que dans un premier temps, on considère que les deux spécimens appartiennent à la même classe, on serait amenés à regrouper deux descriptions en une seule avec la taille des spicules égale à [5, 15] mus. Ce faisant, si on découvre plus tard que les deux spécimens appartiennent en fait à des classes différentes, soit on devra refaire des descriptions conformes aux spécimens (il faut donc bien conserver les échantillons) ou alors si les spécimens ne sont plus disponibles, on aura perdu de l’information (car on a généralisé en regroupant deux descriptions). 2) La qualité de l’échantillon est un facteur important pour être en mesure de faire de bonnes descriptions. L’idéal est de pouvoir récupérer des renseignements sur le spécimen vivant dans son milieu d’origine, puis de le décrire en laboratoire avec les techniques appropriées. On peut préserver ainsi certaines nuances de description (les couleurs par exemple) ainsi que des informations complémentaires utiles pour pouvoir expliquer certaines observations (analyses de sol, traitements préventifs pouvant influencer l’extériorisation des symptômes en pathologie végétale). Les êtres vivants évoluent dans le temps ce qui provoque le plus souvent des phénomènes de dégradation préjudiciables pour leur description. C’est ainsi le cas des échantillons de plantes dont la fraîcheur n’est pas conservée très longtemps ou bien encore des plantes qui ne sont pas prélevées en début d’attaque et qui manifestent des symptômes secondaires (de faiblesse, saprophytes) masquant la cause primaire de la maladie [Conruyt & Piaton, 1987], [Blancard, 1988]. Ensuite, le spécimen devra être identifié, puis conservé dans une collection de manière à pouvoir s’y référer dans l’avenir. Souvent, l’échantillon est incomplet ou n’existe qu’en morceaux du fait des expérimentations qu’il a subies. Des normes de conservation dans les muséums sont établies pour bien l’entretenir et perdre le moins d’information possible. Néanmoins, pour les descriptions de maladies, les échantillons ne peuvent pas être gardés car les symptômes se dégradent avec le temps et sont plutôt fugitifs. Le rôle central des descriptions en sciences naturelles 133 Enfin, pour les descriptions ayant pour origine d’autres descriptions dans des livres, on doit se contenter de ce qui existe : ◊ ◊ ◊ des descriptions de spécimens, des “descriptions” synthétiques de plusieurs spécimens, des descriptions incomplètes, etc.. L’expert est à ce moment obligé de réinterpréter des descriptions plus ou moins anciennes. S’il n’a plus accès au spécimen d’origine alors que des moyens nouveaux d’investigation sont possibles (par exemple une expérimentation sur le génome qui ne pouvait être prise en compte lors de la première description), la description s’arrête là. Dans notre application sur les Hyalonema, l’expert a surtout travaillé à partir de descriptions et de dessins dans des livres anciens, les spécimens n’étant plus disponibles. Toutefois, les parties du spécimen qui ont servi à établir les classifications sont d’ordre microscopique : ce sont les spicules du squelette de ces éponges siliceuses. L’expert M. Levi dispose encore de certaines de ces préparations. 3) La qualité des appareils de mesure joue sur la précision de chaque description. Par exemple, en pathologie végétale, si on demande à l’agriculteur de faire une coupe transversale tout le long de la tige d’un plant de tomate pour regarder la couleur des vaisseaux, et qu’il ne dispose pas de couteau, soit il ne répond pas à la question, soit il fait une réponse approximative après avoir ouvert manuellement avec l’ongle la tige à différents niveaux. Ce bruit dans la phase de description n’est pas toujours contrôlé à l’arrivée (au moment du traitement) : il se peut que l’observation comme quoi les vaisseaux sont bruns est vérifiée au bas de la tige mais pas en haut (il ne pouvait pas le faire sans couteau). En systématique, le problème est différent : les biologistes travaillent dans un environnement propice aux descriptions précises avec des appareils plus ou moins sophistiqués. Par rapport à l’objectif de classification, les descriptions effectuées à une date donnée sont supposées complètes, c'est-à-dire avec le niveau de précision suffisant pour l’objectif fixé. Ce niveau de précision des descriptions dépend néanmoins de l’évolution des appareils de mesure. Ces derniers permettent d’affiner certains détails qui peuvent se révéler en contradiction avec les observations précédentes sur un autre matériel de mesure. Par exemple, en observant la protoconque (coquille embryonnaire) d’un mollusque, le biologiste aperçoit des ponctuations au microscope optique lui faisant penser à des trous d’épingle et il décrit la protoconque comme ponctuée. S’il observe cette coquille au microscope électronique à balayage, ces “trous” apparaissent alors comme des bosses et la description se transforme alors en protoconque pustulée. La description de la protoconque est devenue plus juste en utilisant un matériel de mesure plus précis : l’aspect concave des ponctuations 134 Chapitre 4 (comme des trous) a été remplacé par un aspect convexe dû à des pustules sur la coquille. 4) La qualité des observations est un leitmotiv dans la bouche des experts pour pouvoir effectuer des déterminations correctes. Cela dépend de la perception du descripteur. Par exemple en pathologie végétale, des descripteurs naïfs par rapport à l’observation auront tendance à décrire toute anomalie apparente sur la plante comme un symptôme potentiel d’une maladie. Ces descripteurs n’ont pas la capacité de sélectionner les symptômes pertinents par rapport aux maladies répertoriées par l’expert : ainsi en est-il des taches de cuivre bleutées qui résultent de l’application d’un traitement à la bouillie bordelaise contre l’oïdium ou encore du jaunissement dû à la sénescence des feuilles du bas ou à l'ombrage du feuillage : ce sont des descriptions de faux symptômes ! Inversement, sur une même plante, l'expert a tendance à ne voir que les symptômes caractéristiques des maladies les plus importantes et à laisser de côté tous les symptômes annexes sans les désigner : il fait un tri des symptômes de manière inconsciente. Cet exemple pris en pathologie végétale montre les écarts importants qui existent dans les interprétations de l’observation entre différents utilisateurs. La naïveté des observations de l’utilisateur est un critère à prendre en compte pour évaluer la robustesse des systèmes de détermination. Dans la mesure où l’on souhaite que le système soit utilisé dans les conditions de la réalité, c’est à l’expert et au cogniticien de s’adapter aux utilisateurs et non l’inverse. 5) Cette adaptation passe par la confection d’un modèle descriptif et d’un questionnaire permettant une aide à l’observation. Le modèle descriptif constitue la trame du questionnaire calqué sur son architecture afin de fabriquer un véritable guide d’observation comme nous le verrons au chapitre 6. V FORMALISATION DE LA NOTION D’OBJET EN BIOLOGIE Après avoir mis en lumière l’importance des descriptions de spécimens, nous proposons maintenant une formalisation mathématique des objets biologiques1 à analyser en suivant le cheminement d'élaboration du modèle descriptif. Nous ne formalisons pas ici les traitements à effectuer sur ces objets (induction et raisonnement par cas) qui seront étudiés au chapitre 7. Nous présentons d'abord les assertions composites permettant le processus de décomposition de la description de l'entité du domaine. Puis les hordes composites sont utilisées pour définir les objets multi-instanciés. La description de l'individu est enfin exprimée à l'aide d'un objet de synthèse comprenant des objets “assertion” et “horde” composites décrivant ses différentes parties. Des propriétés sont ajoutées à l'ensemble de ces objets par des règles sous forme de contraintes. De plus, une connaissance supplémentaire peut être introduite sous la forme d'un ordre hiérarchique sur ces objets. Ce formalisme reprend celui des objets symboliques booléens introduits par [Diday, 1987] et est adapté dans le cadre de l'apprentissage d'objets biologiques sur des individus complexes. 5.1 Les assertions composites 5.1.1 Rappel sur les assertions (symboliques) Soient Ω = {w1 ,...,wn }, l'ensemble des entités concrètes ou individus observés, Π 2 Ω, l'ensemble de tous les individus observables ou abstraits, Y = {y1 ,...,yp }, l'ensemble des variables observées du domaine, Λ 2 Y, l'ensemble de toutes les variables observables. Pour chaque variable observée yi ∈ Y, nous pouvons associer un espace d’observation Oi qui est l'ensemble des valeurs possibles de yi (ce sont des valeurs observables abstraites). On définit alors yi comme une application de Π dans Oi avec Oi ∈ {O1 ,...,Op } ∪ {?}. 1 Comme nous l’avons déjà dit au § 3.6, l’objet biologique peut prendre la signification d’un individu ou d’un composant d’un individu selon le point de vue. 136 Chapitre 5 Enfin, soit Vi ⊂ Oi , l'ensemble des valeurs observées de yi (valeurs concrètes) avec Vi ∈ {V1 ,...,Vq}. L'assertion symbolique as = ∧ i [yi = Vi] exprime que “La variable yi prend des valeurs dans Vi”. Elle est définie par l'application as : as : Ω → {vrai, faux} / as(w) = vrai ssi ∀ i = 1,...,p on a yi (w) ∈ Vi L'extension de as notée | as | Ω est l'ensemble des individus w ∈ Ω pour lesquels as(w) = vrai. Exemple : Soient Ω = {w1 ,...,wn }, l'ensemble des descriptions observées de têtes de mammifères, Λ, l'ensemble de toutes les variables observables sur une tête de mammifère, Soient Y = {y1 = [taille(tête)], y2 = [longueur(nez)], y3 = [couleur(yeux)]}, l’ensemble des variables observées, O1 l'ensemble des tailles observables en cm pour la tête, O2 l'ensemble des longueurs possibles en cm pour le nez, O3 l'ensemble des couleurs possibles pour les yeux. En considérant l'assertion as suivante : [[taille(tête)] = [100 , 200] = V1 ] ∧ [[longueur(nez)] = [60 , 200] = V2 ] ∧ [[couleur(yeux)] = {brun, marron} = V3 ], l'extension de as notée | as | Ω est l'ensemble des descriptions des têtes de mammifères qui vérifient l'assertion : | as | Ω = {w ∈ Ω / as(w) = vrai ⇔ y1 (w) ∈ V1 ∧ y2 (w) ∈ V2 ∧ y3 (w) ∈ V3 } Remarque : Dans cette définition de l'assertion, 'as' est à la fois la notation (une conjonction d'évènements) et une fonction indiquant la méthode de calcul de son extension. Pour nos applications biologiques, nous souhaitons bien séparer les deux afin de représenter d'une part les connaissances de l'expert c'est-à-dire les descriptions d'objets (l'ensemble de départ de la fonction) et d'autre part les traitements à effectuer sur ces objets (induction et raisonnement par cas) qui font l’objet du chapitre 7. 137 Formalisation de la notion d'objet en biologie 5.1.2 Proposition : les objets assertions Un objet assertion a = ∧ i [yi = Vi ] est défini par l'application a : a : Ω → {vrai, faux} / a(w) = vrai ssi ∀ i = 1,...,p on a yi (w) ∈ Oi , c'est-à-dire que les objets ont des valeurs observées comprises dans le domaine de définition prédéfini des valeurs observables du modèle descriptif. Le calcul de l'extension de a n'a pas grand intérêt pour nous puisqu'il est l'ensemble des individus (les clônes) qui ont la même description a. Dans cette définition des objets assertions, l'utilisateur a la possibilité d'indiquer qu'il ne connaît pas la valeur de yi (w). A cet instant, la réponse “?” signifie l'indécision totale, c'est-à-dire la disjonction de toutes les valeurs possibles de la variable yi . On peut aussi définir un objet assertion a = ∧ i [Xi = Vi ] comme une application a : Ω → {vrai, faux} / a(x) = vrai ssi ∀ i = 1,...,p on a x i ∈ Vi , avec la propriété suivante dans le cas ou Y est une bijection : as = a ο y preuve : Y est bijective : ∀ xi ∈ Oi , ∃ w ∈ Ω / yi (w) = x i as (w) = ∧ i (yi (w) ∈ Vi ) = ∧ i (xi ∈ Vi ) = a (x) = a (y (w)) = (a ο y) (w) 5.1.3 Définition des assertions composites ➢ Soit l'espace des parties d'individus observables Π = Π1 x Π2 x ... x Πm' Πi est l'ensemble de toutes les parties élémentaires observables d'une entité w. Soit l'espace de parties observées d'individus : Ω = Ω1 x Ω 2 x ... x Ω m m étant le nombre de parties de w, on définit Ω i = {pi }, l'ensemble singleton d'une partie élémentaire observée de l'entité w. On a Ω i ⊂ Πi . Exemple : Ω = {têtes}, Ω 1 = {nez}, Ω 2 = {yeux} ➢ Soit l'espace des variables observables du domaine Λ = Λ1 x Λ 2 x ... x Λ p' p' étant le nombre d'ensembles de variables des parties de w, Λ i est l'ensemble de toutes les variables observables d'une partie pi de Ω i . Soit l'espace des variables observées du domaine Y = Y1 x Y2 x ... x Yp 138 Chapitre 5 Sur chaque partie de l'entité, on peut définir l'ensemble des variables observées Yi = {yi1 ,..,yij ,..,yiq }, q étant le nombre de variables d'une partie de w, yij représentant la jème variable de la partie i de w. On a Yi ⊂ Λi . i i i Soit Qi = {q1 ,..,qj ,..,qq }, l'ensemble des qualités ou caractères observés d'une partie pi de Ω i. Soit Ni = {ni }, l'ensemble singleton comportant le nom de la partie pi de Ω i , on a Yi = Qi ο Ni . Exemple : Q1 = {taille}, N1 = {tête}, Y1 = {[taille(tête)]} Q2 = {couleur}, N2 = {yeux}, Y 2 = {[couleur(yeux)]} ➢ Soit l'espace d'observation du domaine O = O1 x O2 x ... x On n est le nombre d'ensembles d'observation des parties de w, Oi est l'ensemble d'observation d'une partie pi de Ω i . Yi est une fonction de Πi → Oi . On peut définir Oij ∈ {Oi1 ,...,Oir } l'ensemble d'observation où la variable yij prend ses valeurs, r étant le nombre d'ensembles de valeurs observables d'une partie pi de Ω i Définition : Soit A l'ensemble des assertions du domaine, une assertion composite ai ∈ A est une fonction Ω i → {vrai, faux} / ai (w) = vrai ssi ∀ i = 1,...,p , ∀ j = 1,...,q on a yij (w) ∈ Oij avec la propriété suivante : ai est définie par la conjonction d'évènements [yij = V ij ] dont une valeur au moins de yij est une assertion composite aj définie sur Ω j : i y j est une fonction de ai = i i i [y j = Vj ] = i i [[q j (ni ) ] = i i Vj Oj ] avec v i Vj / v Aj On peut illustrer la définition précédente par le schéma de la figure 5.1 ou h et i sont des parties de w et sont représentées par des descriptions sous forme de vecteurs des variables yhj et yij : 139 Formalisation de la notion d'objet en biologie h y h 1 h V1 i h j y h l y h j V h l Vr y V h q y i 1 h i V1 i j y i l y i j V i l Vr y V i q i Fig. 5.1 : Illustration d’une assertion composite ah 5.1.4 Exemples Une assertion composite “mammifère” peut s'écrire : ax = [[sexe(mammifère)] = Vx1 ]] ∧ [[age(mammifère)] = Vx2 ] ∧ [[poids(mammifère)] = Vx3 ] ∧ [[subparts(mammifère)] = {tête, tronc, membres}] Les valeurs de la variable yx4 = [subparts(mammifère)] sont aussi des assertions composites : ay = tête = [[forme(tête)] = Vy1 ]] ∧ [[taille(tête)] = Vy2 ] ∧ [[subparts(tête)] = {oreilles, yeux, bouche, nez}] De manière analogue pour notre application sur les éponges marines, on définit une assertion composite “corps” de l'éponge : a6 = [[forme(corps)] = V61 ]] ∧ [[taille(corps)] = V62 ] ∧ [[consistance(corps)] = V63 ] ∧ [[couleur(corps)] = V64 ] ∧ [[subparts(corps)] = {macro-constituants, micro-elements}] Les valeurs de la variable y65 composites : = [subparts(corps)] sont des assertions a8 = [[forme(face-exhalante)] = V81 ]] ∧ [[subparts(face-exhalante)] = {orifices, cône-central, membrane-criblée}] (voir a6 et a8 sur le schéma du modèle descriptif de la figure 5.2 : on remarquera la correspondance entre un objet physique “face exhalante” et l'objet contextuel “macro constituants”. Ce dernier est un label de description, une étiquette indiquant qu'il faut observer à une échelle macroscopique alors que les autres objets du corps de l'éponge s'observent dans un contexte microscopique) : 140 Chapitre 5 Fig. 5.2 : Schéma de la structure du modèle descriptif 5.2 Les hordes composites 5.2.1 Rappel sur les hordes (symboliques) La horde symbolique hs = ∧ i [yi (ui ) = V i ] exprime que “La variable yi de l'individu i prend des valeurs dans Vi ”. Elle est définie par l'application hs. 141 Formalisation de la notion d'objet en biologie hs : Ω n → {vrai, faux} / ∀ u = (u1 ,...,u n ) ∈ Ω n , h s (u) = vrai ssi ∀ i = 1,...,p on a yi (ui ) ∈ Vi . Dans la notation précédente, les ui représentent différentes instances d’individus non nécessairement identiques. L'extension de hs notée | hs | Ω est l'ensemble des individus u ∈ Ω n pour lesquels hs(u) = vrai. Lorsque tous les ui sont identiques, l'objet horde se réduit à un objet assertion (on a H ⊃ A, l’ensemble des hordes du domaine). 5.2.2 proposition : les objets hordes Un objet horde est défini par la fonction h. h : Ω n → {vrai, faux} / h(u) = vrai ssi ∀ i = 1,...,p on a yi (ui ) ∈ Oi . Exemple : Soit Ω 3 2 = {w1 , ..,w32 } , l'ensemble des descriptions observées de dents chez un humain. Soit Λ l'ensemble de toutes les variables observables sur une dent d'humain, Soit Y = {y1 = [position(dents)], y2 = [face-occlusale(dents)]}, l'ensemble des variables observées. Soit O1 l'ensemble de toutes les positions observables pour y1. Soit O2 l'ensemble des aspects de la face occlusale possibles pour y2 . Il s’agit de la partie mordante de la dent. Soit l'objet horde décrivant les quatre sortes de dents que l'on rencontre chez l'humain : 142 h = Chapitre 5 [[position(dents)] (u1 ) = en-arriere = V1 ] ∧ [[face-occlusale(dents)] (u1 ) = 4-pointes = V' 1 ] ∧ (molaires) [[position(dents)] (u2 ) = au-milieu = V2 ] ∧ [[face-occlusale(dents)] (u2 ) = 2-pointes = V' 2 ] ∧ (prémolaires) [[position(dents)] (u3 ) = devant = V3 ] ∧ [[face-occlusale(dents)] (u3 ) = 1-pointe = V' 3 ] ∧ (canines) [[position(dents)] (u4 ) = devant = V4 ] ∧ [[face-occlusale(dents)] (u4 ) = arrête = V'4 ] (incisives) Dans cet exemple, on caractérise sans les nommer les quatre sortes de dents chez les humains (les Incisives, les Canines, les Prémolaires et les Molaires). On aurait pu très bien décrire chaque classe de dent par une assertion (respectivement chaque u i ) à condition de la nommer. Utiliser les hordes se justifie lorsque l'on désire constituer une base de cas portant sur différentes sortes d'objets d'un même type (les dents) sans que l’utilisateur soit contraint d'en connaître le nom pour les spécialiser. Par la suite, à partir de ces cas, on pourra effectuer une classification locale (une généralisation) de ces différentes sortes d'objets. Cela permet d'extraire pour chaque sorte une description de Classe avec ses critères représentatifs, ainsi que l'intervalle de variation des valeurs. L'appartenance d'une nouvelle dent à l'une des Classes peut alors être testée par description puis comparaison avec la représentation en intension des Classes. 5.2.3 Définition des hordes composites ➢ Soit l'espace de description Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm m étant le nombre de parties d'une entité w, on définit l'ensemble des parties élémentaires observées de w : [Ω i ]ni = {pi1 ,..,pik ,..,pin }, n étant le nombre de parties élémentaires instanciées observées d'une partie pi de Ω i , et k étant la kème instance observée, pik est donc la kème instance de la partie i de l'entité w. ➢ Soient Πi , Λ i , Yi , Oi les ensembles définis au paragraphe 5.1.1. 143 Formalisation de la notion d'objet en biologie Définition : Soit H l'ensemble des hordes du domaine, une horde composite hi ∈ H est une fonction [Ω i ]ni → {vrai, faux} / hi (uij ) = vrai ssi ∀ i = 1,...,p ∀ j = 1,...,q on a yij (uij ) ∈ Oij avec la propriété suivante : i i ij hi est définie par la conjonction d'évènements [yj(uk) = V k ] dont les k objets i i instanciés u k d'une partie élémentaire pk de w ne sont pas nécessairement i identiques et dont une valeur au moins de yj est une assertion ai ou une horde hi définie sur Ω j : i ni y j est une fonction de i ] i i ij ij hi = i [y j (uk ) = Vk ] avec v Vk / v Oj A j ou v Hj De même que pour les assertions composites, on peut illustrer la définition précédente par le schéma de la figure 5.3 ou i est une partie de w représentée par une description sous forme de tableau des variables yij avec chaque ligne correspondant à une instance de la partie i, et j est par exemple une autre partie représentée par une assertion composite : ni i i 1 y y i j y i p i 1 j u i u k i m u ij V k ip V k y j 1 j 1 V j j y j j V y V Fig. 5.3 : Illustration d’une horde composite hi 5.2.4 Exemples Une horde composite “membres” de mammifère s'écrit : j l j l y j q V j r 144 Chapitre 5 hx = [[longueur(membres)] (ux1 ) = Vx,1 1 ]] ∧ [[position(membres)] (ux1 ) = Vx,2 1 = {avant}] ∧ [[subparts(membres)] (ux1 ) = {pieds(ux1 ), genoux(u x1 ), jambes(ux1 )}] ∧ [[longueur(membres)] (ux2 ) = Vx,2 1 ]] ∧ [[position(membres)] (ux2 ) = {arrière}] ∧ [[subparts(membres)] (ux2 ) = {pieds(ux2 ), genoux(u x2 ), jambes(ux2 )}] x,3 x,3 Les valeurs Vx,3 de la variables yx3 = [subparts(membres)] sont ici 1 , V2 , V3 des assertions : x y,2 ay = pieds(ux1 ) = [[forme(pieds)] (ux1 ) = Vy,1 1 ]] ∧ [[taille(pieds)] (u1 ) = V2 ] Dans cet exemple, l’utilisateur qui ne sait pas distinguer les membres postérieurs des membres antérieurs d’un mammifère peut néanmoins décrire deux sortes de membres sans avoir la connaissance de spécialisation nécessaire. Il indiquera seulement la position des membres : à l’avant ou bien à l’arrière. Une horde composite “microxyhexactines” de l'éponge s'écrit : 16,1 h16 = [[diametre(microxyhexactines)] (u16 ]∧ 1 ) = V1 16,2 [[localisation(microxyhexactines)] (u16 ]∧ 1 ) = V1 16 [[subparts(microxyhexactines)] (u16 1 ) = {rayon(u1 )}] ∧ 16,1 [[diametre(microxyhexactines)] (u16 ]∧ 2 ) = V2 16,2 [[localisation(microxyhexactines)] (u16 ]∧ 2 ) = V2 16 [[subparts(microxyhexactines)] (u16 2 ) = {rayon(u2 )}] 5.3 Les objets de synthèse 5.3.1 Rappel sur les objets de synthèse (symboliques) ➢ Soient Ω 1 ,..., Ω m m ensembles de parties élémentaires de w caractérisées respectivement par m ensembles de variables Y1 ,..., Ym. Hi est l'ensemble de toutes les hordes symboliques définies sur [Ω i ]ni . 145 Formalisation de la notion d'objet en biologie Un objet de synthèse symbolique ss est la conjonction des m objets horde h1 ,..., hm définis sur H1 ,..., Hm : ss = h1 ∧ ... ∧hm avec hi ∈ Hi ➢ Soit l'ensemble U des objets instanciés sur [Ω m ]nm : U = (U 1 , ... , U m) Soient Ui = (uij1 ,..,u ijk ,..,u ijn ) ∈ [Ω i ]ni , l'ensemble des instances de l'objet i, Yi ∈ (Y1 ,..., Ym), l’ensemble des variables observables de l’objet i, Vi ∈ (V1 ,..., Vm), l’ensemble des variables observées de l’objet i, s(U) = ∧ i [Yi (Ui ) = Vi ]. L'objet de synthèse symbolique ss est défini par l'application ss : ss : Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm → {vrai, faux} ss(U) = vrai ssi ∀ i = 1,...,m ∀ j = 1,...,nm ∀ k = 1,...,n on a yijk (uijk ) ∈ Vijk . p / ij L’extension est | ss | Ω = {w = (w 11 ,..,wi1 ,..,wik ,..,wn k ) ∈ Ω / yk(uijk ) ∈ Vikj }. 5.3.2 Proposition : les objets de synthèse L'objet de synthèse s, qui est la description d'un individu ou d’un spécimen (une unité), est défini par l'application s : s : Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm → {vrai, faux} s(U) = vrai ssi / ∀ i = 1,...,m ∀ j = 1,...,nm ∀ k = 1,...,n on a yijk (uijk ) ∈ Oij . 5.3.3 Exemple Une éponge dans notre application est une entité individuelle complexe représentée par l'objet de synthèse s qui est la conjonction de 2 objets hordes composites (les amphidisques et les microxyhexactines) et de 20 objets assertions composites. L'objet horde composite “amphidisques” est instancié au maximum 4 fois alors que l'objet horde composite “microxyhexactines” est instancié 2 fois : s : Ω = Ω 1 x Ω 2 x...x Ω 15 x [Ω 116 x Ω 216 ] x [Ω 117 x Ω 217 x Ω 317 x Ω 417 ] x Ω 1 8 x... ... x Ω 22 → {vrai, faux} 146 Chapitre 5 5.4 Les objets munis de méthodes et de propriétés Afin d'exprimer les liens entre les objets et les variables, on peut être amené à écrire des règles au sein d'un objet assertion ou horde composites. Il suffit pour cela d'ajouter par conjonction des évènements élémentaires définissant par exemple une contrainte sur l'existence d'une variable ou d'un objet. Les règles peuvent s'exprimer sous la forme (si yi = V i alors yj = V j ) s'il y a dépendance entre un sous-ensemble de valeurs Vi ⊂ Oi et un sous-ensemble de valeurs Vj ⊂ Oj : Par exemple dans l'assertion “culture” attachée à une parcelle de plantes maraîchères, une règle sur le mode de culture permet de restreindre l'intervalle des valeurs possibles à une valeur pour le type de culture : a = [[stade(culture)] = V1 ] ∧ [si [[mode(culture)] = plein-champ] alors [[type(culture)] = en-sol]]. Ces règles peuvent aussi permettre de restreindre l'espace des variables observables Λ <i ainsi que l'espace des objets observables Π<i d'un objet i. Soit Π<i = { Πk , k ∈ {1,...,m} / “l'objet k est une sous-partie de l'objet i”}, l'ensemble des objets observables sous-parties de l'objet i. Soit Λ <i = { Λ k , k ∈ {1,...,m} / “l'objet k est une sous-partie de l'objet i”}, l'ensemble des ensembles de variables observables des objets observables sousparties de l'objet i. 5.4.1 Cas des variables : S'il y a dépendance entre un sous-ensemble de valeurs Vj ⊂ Oj et un sousensemble de variables Λ k ⊂ Λ j , une règle sera du type : si y i = V i alors ∃ Λ k ∈ Λ <i / Λ j = Λ j \ Λ k (\ est le symbole d’exception) Exemple : Prenons l'assertion “orifices” de la face exhalante (partie n° 9 du schéma de la figure 5.2) : ae12 = [[nombre(orifices)] = V12 1 ]∧ [si [[nombre(orifices)] ∈ {unique, ?}] alors [Λ 12 = Λ 12 \ {[dimensions(orifices)] , [repartition(orifices)]}]] Formalisation de la notion d'objet en biologie 147 Cette assertion exprime le fait que si on a qu'un seul orifice à la face exhalante, alors on ne doit pas s'intéresser à la description des variables observables dimension et répartition des orifices (la 1ère parce qu'elle n'est plus pertinente, la seconde parce qu'elle n'est pas observable dans ce contexte). 5.4.2 Cas des objets : S'il y a dépendance entre un sous-ensemble de valeurs Vj ⊂ Oj et un sousensemble d'objets Πk ⊂ Π , on peut avoir une règle du type : si yi = Vi alors ∃ Πk ∈ Π<i / Π = Π \ Πk Exemple : Prenons la horde composite “amphidisques” : h17 = [si [[type(amphidisques)] (u17 i ) = micramphidisque] alors [Λ 20 = Λ 20 \{[allongement(ombrelles)] (u17 i )}] ∧ [Π = Π\ {dents(u17 i )}]]] ∧ 17,1 [[localisation(amphidisques)] (u17 ]∧ 1 ) = V1 17,1 [[taille(amphidisques)] (u17 ]∧ 1 ) = V2 ∧ 17 17 17 [subpart(amphidisques)](u17 1 ) = {tige(u 1 ),ombrelles(u 1 ),dents(u1 )}] 17,2 [[localisation(amphidisques)] (u17 ]∧ 2 ) = V1 17,2 [[taille(amphidisques)] (u17 ]∧ 2 ) = V2 [...] Dans cette horde, la règle indique que si le type de l'amphidisque est un micramphidisque (quelle que soit l’instance d’amphidisque concernée), alors on ne doit pas s'intéresser à la description de la variable allongement des ombrelles (partie n° 20 de l'éponge) de l'amphidisque (partie n° 17), mais aussi que les dents (partie n° 21) de ces micramphidisques ne sont plus observables dans ce contexte. Plus généralement, on peut énoncer des règles implicites très fortes s'appliquant à chaque objet de la description dont la valeur attachée à la variable yi = “sous-partie-de(objet i)” est un objet non présent (¬) ou inconnu (?) : ∀ v ∈ Vi , si yi = ¬v ou yi = ?v alors ∀ Πk ∈ Π<i , ∀ Λ k ∈ Λ <i Π = Π \ Πk et Λ j = Λ j \ Λ k 148 Chapitre 5 Exemples : 1) [si [[sous-partie-de(champignon1 )] = ?chapeau] alors [Λ 1 = Λ 1 \ {[couleur(chapeau)] , [forme(chapeau)]}]] 2) [si [[subparts(micro-elements)] = ¬microxyhexactines(ui )] alors [Λ 16 = Λ 16 \{[diametre(microxyhexactines)](ui ) , [localisation(microxyhexactines)](ui )}] ∧ [Λ 15 = Λ 15 \ {[rugosite(rayons)](ui ) , [forme(rayons)](u i )}] ∧ [Π = Π \ {rayons(ui )}]] La règle 2 signifie que lorsqu’il n’y a pas d’objet microxyhexactines dans la description (qu’il soit multi-instancié par ui ou non), alors une telle description constituerait une incohérence : il est inutile de décrire le diamètre et la localisation de cet objet ainsi que de renseigner l’objet rayons qui n’existe pas dans ce contexte. 5.5 Les objets classifiés On peut définir un ordre partiel sur des objets pi et p' i en fonction de leurs extensions | pi | et | p' i | permettant de formaliser les notions d'héritage et de généralisation [Brito, 1991] : ∀ pi , p' i ∈ Πi , on dit que pi ≤ p' i ssi | pi | ⊆ |p' i | On dira que pi hérite de p'i si pi ≤ p' i et que p' i est plus général que pi Exemple : En considérant l'ensemble des baleines et l'ensemble des mammifères, la partie pi = “nageoires latérales” des baleines est une spécialisation de la partie p’i = “membres-antérieurs” des mammifères. Les nageoires héritent des propriétés des membres antérieurs tout en ayant des caractéristiques propres (comme celle par exemple de ne pas avoir de sousparties bras et mains). Formalisation de la notion d'objet en biologie 149 5.6 Les exemples d'apprentissage Un cas ou un exemple d'apprentissage dans notre application est un objet de synthèse. C’est une conjonction w ∈ Ω d'objets instanciés sur la base du modèle descriptif pour lesquels s(w) = vrai : A titre d'exemple, nous présentons le cas w16 pour lequel s(w16 ) = vrai : w16 = {[[subparts(eponge)] = {description,identification,contexte}] ∧ [[subparts(description)] = corps] ∧ [[classe(identification)] = Prionema] ∧ [[reference(identification)] = “Spinosum Lendenfeld 1915"] ∧ [[localite(contexte)] = “Pacifique est"] ∧ [[latitude(contexte)] = “0°4'N"] ∧ [[longitude(contexte)] = “117°15'W"] ∧ [[profondeur(contexte)] = “4243m"] ∧ [[subparts(corps)] = micro-elements] ∧ [[taille(corps)] = 47 mm] ∧ [[forme(corps)] = aplatie(en-galette)] ∧ [[subparts(micro-elements)] = {amphidisques(v1 ), amphidisques(v2 ), amphidisques(v3 ), microxyhexactines(u1 ), ¬microxyhexactines(u2 ), pinules-dermaux}] ∧ [[type(amphidisques)](v1 ) = macramphidisque] ∧ [[localisation(amphidisques)](v1 ) = disperce-partout] ∧ [[taille(amphidisques)](v1 ) = [180 , 299] mus] ∧ [[subparts(amphidisques)](v1 ) = {tige(v1 ), ombrelles(v1 ), dents(v 1 )}] ∧ [[type(amphidisques)](v2 ) = mesamphidisque] ∧ [[taille(amphidisques)](v2 ) = [45 , 127] mus] ∧ [[subparts(amphidisques)](v2 ) = {tige(v2 ), ombrelles(v2 ), dents(v 2 )}] ∧ [[type(amphidisques)](v3 ) = micramphidisque] ∧ [[localisation(amphidisques)](v3 ) = disperse-partout] ∧ [[taille(amphidisques)](v3 ) = [13 , 29] mus] ∧ [[subparts(microxyhexactines)] (u1 ) = rayons] ∧ [[diametre(microxyhexactines)] (u1 ) = [108 , 179] mus] ∧ [[localisation(microxyhexactines)] (u1 ) = en-paquets] ∧ [[longueur-du-rayon-distal(pinules-dermaux)] = [100 154] mus] ∧ 150 Chapitre 5 [[largeur-maximale(pinules-dermaux)] = [10 , 17] mus] ∧ [[tuberculee(tige)](v1 ) = oui] ∧ [[allongement(ombrelles)](v1 ) = [1.00 , 1.63]] ∧ [[longueur-relative(ombrelles)](v1 ) = [0.21 , 0.38]] ∧ [[bord(dents)](v1 ) = lisse] ∧ [[tuberculee(tige)](v2 ) = oui] ∧ [[allongement(ombrelles)](v2 ) = [1.08 , 1.87]] ∧ [[longueur-relative(ombrelles)](v2 ) = [0.28 , 0.44]] ∧ [[bord(dents)](v2 ) = lisse] ∧ [[forme(rayons)] = droits] ∧ [[rugosite(rayons)] = epineux] } La description de tous les objets de synthèse de Hyalonema constitue l'ensemble Ω = {w1 ,...,wn } des entités concrètes ou individus observés. On appellera aussi cet ensemble la base de cas ou base d'exemples du domaine. Dans cette description d'éponge, on remarque que toute l'information est présente, alors que la non-information est absente : l'inconnu comme valeur d'une variable n'est pas une information, pas plus que la présence inconnue d'un objet. On met en évidence l'existence d'une variable qualitative particulière nommée “classe(identification)” qui sera la variable à expliquer ou le concept à apprendre dans le système d'apprentissage. Cette variable possède 12 valeurs ou modalités dans la base de cas. Par définition, un exemple où ne figure pas cette variable à expliquer sera appelée une observation du domaine. Enfin, on peut aussi noter la variable [forme(corps)] qui prend comme état une hiérarchie de valeurs. Le problème posé dans la pratique est celui de discriminer efficacement les différents objets de synthèse instanciés dans la base d'exemples afin de fabriquer un système expert d'identification pour le Genre Hyalonema. Nous employons pour cela une méthode inductive décrite dans le chapitre 7. Les observations nouvelles serviront à consulter le système expert et eventuellement à constituer de nouveaux cas. 151 Formalisation de la notion d'objet en biologie 5.7 Conclusion Le schéma de la figure 5.4 synthétise ce qui vient d’être dit dans ce chapitre. Il montre les relations existant entre les différents espaces qui permettent la description d’un individu. Les parties grisées symbolisent les espaces observables ∏, Λ et O (ce qui est possible d’observer pour chaque individu à décrire) alors que les parties vides illustrent les ensembles observés Ω, Y et V qui composent les descriptions dans la base de cas : Espace des Individus Espace des variables Y w Y Chaque individu est décrit par un objet structuré avec des liens de sous-parties 1 w 1 Y i wn Y p partie i de w partie h de w h h=i-1 ni i 1 h h y1 ... i i h V1 y h yj y h h l h Vj Vl yh i yj i yp ui q 1 h Vr ui ... ij Vk k i m u Espace d'observation Produit Cartésien de sous-ensembles disjoints O h O1 O1 h Oj h Ol h Or Oh Fig. 5.4 : Schéma de formalisation des données On 152 Chapitre 5 En reprenant la description d’un individu, on met en évidence qu’elle est structurée selon la relation de composition entre les différents objets. Chaque objet représente une partie de la descrition sans qu’il y ait de recouvrement entre eux (la description est formée du produit cartésien de sous-ensembles disjoints). Cette présentation permet de bien faire la différence entre les objets qui sont décrits une seule fois et ceux qui sont décrits plusieurs fois au sein d’une même description. Un zoom sur chacun de ces objets permet d’apprécier leur description locale. Les premiers sont des objets assertions composites symbolisés sur la figure à gauche par un vecteur de valeurs d’attributs (les variables étant indiquées dans la première ligne). Les seconds sont des objets hordes composites décrits par le tableau de droite avec chaque instance de la horde occupant une ligne du tableau. Pour chaque description locale d’un objet, le schéma montre la différence entre les variables relationnelles et les variables terminales. Les premières ont un espace d’observation dont les valeurs sont d’autres objets observés contrairement aux seconds. Le schéma précédent n’indique pas néanmoins la description des objets munis de méthodes et propriétés ainsi que les objets classifiés (cf. § 5.4 et 5.5). Ces caractéristiques sont des raffinements de la description d’un individu qui permettent de préciser les conditions d’applicabilité des variables (objets et attributs) en fonction d’autres variables, et de spécifier les variables elles mêmes en fonction du contexte (la spécialisation). Comme ces caractéristiques dépendent du domaine considéré, elles n’ont pas été introduites dans la figure pour ne pas la compliquer d’avantage. Néanmoins, ces connaissances supplémentaires doivent être explicitées dans la représentation des connaissances car elles expriment souvent le “bon sens” qu’il faut donner aux descriptions. VI FORMALISATION INFORMATIQUE DES DESCRIPTIONS : HYPERQUEST Après avoir défini mathématiquement les objets des descriptions, nous abordons maintenant l'aspect pratique du travail de cette thèse. Nous avons tout d'abord réalisé un outil informatique baptisé HyperQuest qui permet d'acquérir des descriptions robustes pour l'apprentissage. Dans le chapitre 7, nous parlerons d'un autre outil implanté au cours de ce travail (CaseWork) dont l'objectif est de répondre à une meilleure robustesse de la phase de consultation face aux données manquantes. 6.1 Pourquoi HyperQuest ? La description d'objets est une activité qui intervient à chaque fois qu'il est nécessaire de reconnaître ou d'identifier quelque chose. L’identification se fonde sur l’observation visuelle des objets à distinguer. La description est le processus d’abstraction de ces observations. HyperQuest est l’outil d’acquisition de connaissances descriptives que nous avons développé pendant cette thèse pour acquérir des descriptions robustes. Cette activité mentale de description pourrait apparaître purement intuitive, mais elle se réfère en fait à un modèle implicite plus ou moins structuré. L'obtention de ce modèle descriptif, pour un domaine donné, est une étape fondamentale dans le processus cognitif qui permet de passer de l'observation à la description. HyperQuest est l’outil qui permet à l’expert et/ou au cogniticien de construire le modèle descriptif du domaine. Il s’agit de connaissances observables structurées avec des relations entre les objets qui composent le sujet d'étude. Ces connaissances sont représentées dans un formalisme à base d’objets. Les connaissances initiales sont écrites au format LCRC (Langage Commun de Représentation des Connaissances) ou CASUEL qui est la syntaxe commune de représentation des connaissances par le consortium européen ESPRIT sur le raisonnement par cas (INRECA). Dans un deuxième temps, HyperQuest sert à construire un questionnaire interactif hypertexte. Le questionnaire est généré automatiquement à partir du modèle descriptif. L’expert ou l’utilisateur final du système utilisent celui-ci pour acquérir des descriptions individuelles et constituer une base de cas (aussi au 154 Chapitre 6 format LCRC et CASUEL). Les cas sont les connaissances observées du domaine qui seront ensuite traitées par les programmes KATE et CaseWork. 6.2 Particularités d’HyperQuest HyperQuest se présente sous la forme de plusieurs piles HyperCard et est écrit en HyperTalkTM 2.1 [Apple, 1988] et en langage C. L’intérêt d’utiliser HyperQuest sous HyperCard réside dans le fait de pouvoir bénéficier à la fois des avantages de la programmation par objets et de la programmation hypertexte. Le langage C est utilisé pour accroître les performances de certaines procédures au travers de commandes et fonctions externes à HyperCard (XCMD & XFCN). Les objets conceptuels composant la structure du modèle descriptif se traduisent directement par des entités hypertextes avec une certaine correspondance (voir § 6.4.2). Les objets, attributs et valeurs correspondent à des formes graphiques différentes (cartes, boutons et champs). Les cartes et les boutons représentent les objets et les valeurs alors que les champs représentent les attributs. Les boutons sont des zones sensibles de la carte que l’utilisateur du questionnaire peut choisir avec un clic de la souris pour déclencher une action. Cela permet par exemple d’aller décrire les objets qu’ils représentent dans une autre carte appelée par le message associé au bouton sélectionné (voir § 6.5.2.1). Les champs sont des zones de stockage des réponses de l’utilisateur collectées par l'intermédiaire des boutons de valeurs. Le modèle et le questionnaire permettent une navigation aisée pour la description des objets observés qui composent un cas. La description dans le questionnaire se fait sans autre contrainte que celle de l’ordre logique apporté par les connaissances initiales sur le domaine. Les connaissances de fond révélées par l’expert et le cogniticien permettent de structurer le déroulement des questions posées à l’utilisateur dans un ordre logique. Le questionnaire résultant est un outil simple et convivial : on peut aisément naviguer entre les cartes et associer des images ou dessins avec les boutons pour illustrer les objets à décrire. L’un des objectifs d'HyperQuest est de fournir un questionnaire d’acquisition de cas : par exemple “Questionnaire Hyalonema” est le nom du questionnaire pour notre application d'identification d’un Genre d’éponges marines (Hyalonema) réalisée au MNHN. HyperQuest génère la description du modèle descriptif et des cas selon la syntaxe LCRC ou CASUEL. La génération de descriptions peut être considérée comme un but en soi pour constituer une base de données de référence. Néanmoins, HyperQuest est intégré avec KATE qui utilise des techniques d'apprentissage automatique pour générer un système expert de détermination, ou CaseWork qui est un système de raisonnement par cas (voir chapitre 7). Formalisation informatique des descriptions : HyperQuest 155 HyperQuest est un module particulier du système global d'acquisition de connaissances décrit au chapitre 2 (§ 2.4). Il contient à la fois un générateur de modèle descriptif et un générateur automatique de questionnaire. Chaque questionnaire est issu d’un modèle descriptif. Pour comprendre l’architecture d’HyperQuest sous forme de piles HyperCard, le lecteur intéressé peut se référer à l'annexe 4, cette partie provenant du manuel d'utilisation d'HyperQuest [Conruyt & Dumont, 1993]. 6.3 Le générateur de modèle La première étape de fabrication d'un système expert à l'aide de l'apprentissage à partir d'exemples est de définir les objets du domaine au sein d'un modèle descriptif. Cette phase primordiale n'est pas simple à réaliser. Son objectif est d'organiser et d'expliciter le plus fidèlement possible le modèle conceptuel de l'expert pour son domaine d'étude. L'outil générateur de modèle descriptif d'HyperQuest a pour but de l'aider à modéliser ses connaissances observables, à les délimiter pour qu'elles soient réutilisées ensuite par les autres modules du système d'apprentissage. 6.3.1 Conception d’un modèle descriptif La conception d’un modèle descriptif suit une certaine logique et quelques règles d’organisation : globalement, le modèle est structuré selon une ou plusieurs hiérarchies qui dépendent les unes des autres (dans le sens du plus général vers le plus particulier). Ces hiérarchies sont des arbres (des graphes sans cycle) définis par les informaticiens sous forme récursive [Knuth, 1968] cité par [Crémilleux, 1991] : Un arbre est un ensemble fini d’un ou plusieurs nœuds tels que : ◊ il existe un nœud particulier appelé la racine de l’arbre, ◊ les autres nœuds se répartissent en m ensembles disjoints1 (m ≥ 0) dont chacun constitue à son tour un arbre. Au niveau de la modélisation, les arbres permettent de représenter la connaissance observable sous une forme structurée dont chaque nœud correspond à un objet. Cette connaissance ne doit pas être confondue avec un arbre de décision qui est le fruit du traitement des descriptions (les nœuds sont alors des critères de décision) alors qu’un arbre de modélisation est indépendant de tout traitement. 1 Les “m ensembles disjoints” correspondent aux m branches issues de la racine. 156 Chapitre 6 De même, ces arbres ne doivent pas être assimilés à des taxonomies qui définissent une classification des individus, et dont chaque nœud constitue un taxon (un ensemble d’individus). Le but des arbres est ici de structurer les descriptions. Cette structuration a lieu dans deux dimensions selon les deux relations les plus naturelles que nous avons mentionnées aux chapitres 3 et 4 : dépendances (relations de composition ou assertions composites) et spécialisations (relations d’héritage ou ordre partiel entre les objets). L’objet (le composant) se trouve à la jonction de ces deux dimensions : d’un coté, il peut être partitionné. De l’autre, il peut être précisé. Afin de bien faire la distinction entre les deux notions, nous avons choisi de représenter graphiquement l’observable dans deux dimensions correspondant à des fenêtres graphiques différentes (figure 6.1). Cette exigence permet de répondre à un des buts principaux du modèle descriptif qui est de servir d’ossature à un guide d’observation. Un arbre possède la propriété d’avoir un début (la racine) et une ou plusieurs fins (la feuille) et la “remontée” dans l’arbre ne s’effectue que par un seul chemin. C’est pourquoi nous avons décidé d’éviter une représentation graphique sous forme de réseau sémantique comme dans KL-ONE [Brachman, 1977], [Brachman & Schmolze, 1985] ou de graphe conceptuel [Sowa, 1984] dans laquelle les relations sont mélangées dans un même plan visuel. Cette manière de procéder (que l’on retrouve dans les applications industrielles) est inapplicable dans nos applications biologiques du fait qu’aucun ordre entre relations n’y est apparent. Or la modélisation des descriptions d’un système naturel fait apparaître un ordre naturel dans les relations entre objets : un individu à décrire se décompose en objets et chaque composant peut être à son tour précisé (si nécessaire). L’individu représente la racine de l’arbre de (dé)composition alors que si l’objet est précisable, il se trouve être à la racine de l’arbre de spécialisation. C’est pourquoi nous avons choisi de représenter explicitement la relation de composition (ou de dépendance) dans le plan principal. Chaque objet composant ce plan peut être ensuite précisé selon la relation de spécialisation (ou de particularisation). Cette structuration à deux dimensions “orthogonales” subordonne la relation de spécialisation à celle de composition (figure 6.1) : Formalisation informatique des descriptions : HyperQuest 157 Fig. 6.1 : Vue des deux plans orthogonaux de description des objets en pathologie végétale Dans l’exemple ci-dessus concernant le système TOM, le plan principal est celui de la décomposition d’un plan de tomate (l’individu situé à la racine de la vue globale) en sous-parties disjointes. Les objets fictifs, représentés sans encadrement, permettent de structurer le domaine, alors que les objets significatifs ont un sens vis-à-vis de l’objectif de détermination des maladies. Pour que le schéma reste lisible, on n’a représenté que l’objet “symptôme sur folioles” comme significatif, mais tous les autres symptômes non représentés ici sur les autres organes sont aussi significatifs. De même ne sont pas représentés ici les attributs et les valeurs possibles des objets du domaine. La sélection de l’objet “symptôme sur folioles” provoque l’affichage d’une seconde fenêtre superposée, montrant qu’il est la racine d’un arbre de spécialisation. Pour bien marquer la différence entre les relations de composition et les relations de spécialisation, nous avons symbolisé les premières par des lignes angulaires alors que les secondes le sont par des lignes directes ou obliques (voir figure 6.1). De plus, la règle d’organisation des objets du plus général au plus particulier est respectée : les objets les plus généraux se retrouvent vers la racine (vers la gauche), quelle que soit la dimension relationnelle à expliciter (dépendance ou spécialisation). On observe ainsi que la généralité de description des symptômes sur foliole peut s’exprimer par des disjonctions de concepts (“taches ou plages” est un concept disjonctif, plus général que “taches” et que “plages”). 158 Chapitre 6 6.3.2 Règles d’élaboration du modèle descriptif Les règles pour établir un bon modèle descriptif sont les suivantes : D’abord, acquérir l’observable est basé sur l’observation de la variabilité de l’observé. Le modèle descriptif n’est pas une vue de l’esprit mais repose sur l’expérience et la familiarité avec le domaine. C’est avant tout un travail de spécialiste. Ensuite, il faut connaître les objectifs de la modélisation : faire de bonnes descriptions ne suffit pas, il faut savoir dans quel but on les fait : 1) classification a) d’individus b) d’objets 2) détermination a) d’individus b) d’objets 1a) La classification d’individus est un objectif majeur pour les biologistes au MNHN. C’est une démarche exploratoire de scientifiques qui cherchent à remettre en cause des classifications préexistantes. Les descriptions de spécimens constituent la base de ce travail de classification. Le but est de saisir le maximum de caractères sur les individus, sans a priori sur leur utilité pour une classification : l’exhaustivité des descriptions d’individus est recherchée. 1b) La classification d’objets ne met pas en œuvre le même modèle descriptif que la classification d’individus. C’est un objectif plus précis qui se focalise sur un objet particulier, et ceci indépendamment de l’individu qui le contient. Il faut pour cela étoffer la description de l’objet à classifier par un nombre plus important de caractères propres. Cet objectif répond à un besoin d’homogénéisation du vocabulaire dans la communauté des chercheurs du domaine ainsi que de la recherche des homologies entre caractères. La logique d’itération (§ 4.4.6) permet de pallier temporairement les écarts d’interprétation sur le nom réel des objets. Dans notre modèle sur les Hyalonema, la classification des amphidisques est une retombée possible de nos descriptions d’individus (par extraction des sous descriptions de cet objet), mais cela n’était pas le but recherché au départ. 2a) La détermination d’individus était le seul but recherché dans l’approche SEPV de l’INRA (§ 1.1). C’est aussi un objectif au MNHN. La détermination d’individus n’est pas que l’affaire de spécialistes. Elle peut être mise en œuvre par des béotiens du domaine. Ces utilisateurs n’ont pas toujours la connaissance suffisante pour répondre aux questions du système expert. C’est pourquoi la redondance des caractères ne doit pas être écartée lors de la conception du Formalisation informatique des descriptions : HyperQuest 159 modèle descriptif afin que les corrélations entre caractères permettent de remplacer ceux auxquels l’utilisateur ne sait pas répondre (caractères alternatifs). 2b) La détermination d’objets n’est pas un problème que nous avons abordé jusqu’à maintenant, du fait qu’il n’existe pas de classification de ces objets reconnue par la majorité des descripteurs. Il s’agirait par exemple de reconnaître en pathologie végétale les limites et les différences d’interprétation selon les observateurs entre les concepts de tache, nécrose, plages, mosaïques, etc.. C’est un sous problème de la détermination des individus (un individu = une plante avec une certaine maladie) qui est néanmoins important car il peut influencer le diagnostic du fait que les utilisateurs n’ont pas la même vision interprétative de ces objets. En l’absence d’une véritable classification de ces objets admise par tous, la mise en œuvre de dessins explicatifs et de photos permet de faciliter la compréhension du vocabulaire de l’expert. La logique d’itération peut aussi être appliquée pour ne pas obliger à nommer les symptômes. Malgré son importance pratique (au niveau cognitif), la détermination d’objets est un nouvel axe de recherche dont les retombées ne sont pas directement perceptibles : les concepts visés ne sont ni des maladies, ni des taxons ; ce sont simplement des points de description. Donc, dans un but de classification et de détermination d’individus, il ne faut pas craindre l’exhaustivité et la redondance des informations qui permettent de former un modèle complet. L’expert doit être capable de synthétiser tout ce qui a été observé sur le domaine pour fabriquer l’observable (§ 4.6.1). Il a dû auparavant analyser beaucoup de spécimens de façon à connaître toutes les situations. Les futures descriptions seront fondées sur le modèle descriptif et il est conseillé à l’expert de bien réfléchir à ce niveau. Conscient des objectifs des descriptions, l’expert peut ensuite se focaliser sur ce qu’elles devraient véhiculer. L’expert doit résumer l’observé existant en dégageant les faits marquants d’une bonne description. Toutes les informations n’ont pas le même niveau sémantique (objets, attributs et valeurs possibles), les faits les plus marquants correspondent aux objets qui sont eux-mêmes porteurs d’une information locale (attributs et valeurs). L’objet principal est la racine de l’arbre de décomposition (§ 4.6.2). La racine correspond à une entité individuelle. Elle peut être identifiée par un nom, dont nous pensons approprié qu’il identifie le domaine. Ensuite, le choix des objets dépend de la racine, de la nature des relations qu’ils entretiennent (composition ou spécialisation) et de leur niveau de généralité (du plus général au plus particulier) : il faut trouver quelles sont les relations naturelles (de bon sens) entre les objets afin de bâtir une structure de description. 160 Chapitre 6 6.3.3 Dépendances Au préalable, dans toute application, on procède à une décomposition des entités du domaine en objets. Ceux-ci sont reliés par le lien de sous-partie et l'arbre de décomposition obtenu forme ce que l'on appelle une vue globale du domaine. La figure 6.2 montre la vue globale du domaine des Hyalonema : Fig. 6.2 : Vue globale du modèle descriptif des Hyalonema Certains objets ne sont utiles que pour la structuration du domaine, ils sont dits fictifs (par rapport à l’objectif de classification) mais cela ne veut pas dire qu’il faille les négliger pour l’objectif de description lui-même (§ 4.6.5.1.4). Ces objets (représentés sans encadrement dans le modèle ci-dessus) ne se retrouvent que pour la vue globale du domaine et sont positionnés dans la partie gauche de l’arbre de composition : ils correspondent à la logique des points de vue (§ 4.4.3). En se focalisant sur un objet du modèle descriptif, on peut visualiser localement toutes ses caractéristiques observables. L’exemple de l’objet “amphidisques” est illustré à la figure 6.3. Il s’agit d’un sous-arbre de la vue globale des dépendances avec comme racine l’objet “amphidisques”, comme autres nœuds les objets “composants” et comme branches les liens de dépendance. Le dessin qui l’accompagne permet de mieux comprendre la nature de ce micro élément et de faire une comparaison avec l’observable reproduit dans le modèle : Formalisation informatique des descriptions : HyperQuest 161 Fig. 6.3 : Vue partielle du modèle descriptif des Hyalonema 1) Cet objet contient trois sous-parties bien distinctes : la tige, les ombrelles et les dents. L’ensemble des objets avec les arcs brisés qui les relient forme le sousarbre descriptif des amphidisques (logique de décomposition au § 4.6.2). Remarque : on aurait pu aussi faire dépendre les dents des ombrelles. 2) Cet objet est multi-instanciable quatre fois (symbole ×4 ). C’est un des statuts de l’objet (§ 4.6.5.1.3) qui permet d’en décrire jusqu’à quatre sortes sans être obligé de les nommer. Le dessin ci-dessus montre les quatre sortes possibles d’objets à décrire chez un spécimen particulier. 3) Les amphidisques peuvent être absents chez certains spécimens. Cette information est importante pour la classification (§ 4.6.5.1.1) et est représentée dans la vue globale par le symbole d’absence possible “-”. 4) Le signe représente un arbre à arcs droits et symbolise ainsi la présence de spécialisations pour un objet. En cliquant dessus, on fait apparaître la vue globale des spécialisations d'un objet : cette action a permis par exemple d’obtenir des précisions sur la nature d’un symptôme sur folioles à la figure 6.1 162 Chapitre 6 ou bien encore de visualiser la classification locale des amphidisques entre les figures 6.2 et 6.4. 5) Le symbole “◊” qui précède le nom d’un attribut de l’objet permet de se rappeler que cet attribut n’a pas encore de domaine d’observation associé (phase d'élaboration du modèle descriptif). 6) Inversement, le symbole “•” indique que l’expert a déjà renseigné la liste des valeurs possibles de l'attribut d'un objet. 7) Chaque objet est porteur d’une information locale qui lui est propre comme on peut le voir sur la figure 6.3. Les attributs des objets, lorsqu'ils existent, apparaissent dans des champs accrochés aux nœuds de l'arbre. Ils sont activés par simple clic sur le nom de l'objet. Chaque attribut est indexé à l’objet avec un certain domaine d’observation. Par exemple, la taille est un attribut qui existe aussi bien pour l’objet “amphidisques” que pour l’objet “corps” (cf. figure 4.4) mais leurs domaines d’observation seront différents (le premier s’exprime en microns et le second en mm). 8) En cliquant une fois sur le nom de l’attribut, on fait apparaître son domaine d’observation (s’il a été renseigné). La liste des valeurs possibles vient se superposer à la liste des attributs observables de l’objet (sous l’attribut cliqué). 6.3.4 Spécialisations La vue globale des dépendances est le plan principal de description des individus. L’observateur est amené à se déplacer entre les objets pour se positionner sur l’un d’entre eux : c’est pourquoi on peut parler de parcours d’un arbre de composition. Par opposition, un arbre de spécialisation ne se parcourt pas car l’observateur est en train de décrire un objet sur place. Cet arbre donne la possibilité à l’utilisateur de choisir un nœud pour remplacer le nom du composant générique par un autre nom plus précis. C’est donc un arbre de substitution. La substitution concerne tout objet de l’arbre de composition que l’expert peut faire préciser. Par conséquence, les arbres de spécialisation sont “orthogonaux” à l’arbre de composition. Les arbres de spécialisation n’étant pas de même nature que l’arbre de composition, on les visualise dans des fenêtres différentes sous la forme d’une vue globale des choix de substitution possibles. Dans la figure 6.4, on donne l’exemple de l'objet “amphidisques” spécialisable en objets “macramphidisques”, “mesamphidisques” et “micramphidisques” selon Formalisation informatique des descriptions : HyperQuest 163 l’expert. Le résultat est la constitution d’un arbre de spécialisation à un seul niveau contrairement à celui de la figure 6.1. Fig. 6.4 : Vue globale des spécialisations de l’objet “amphidisques” Les conventions utilisées dans cette vue des spécialisations sont identiques à celles de la vue des dépendances. On notera toutefois que les liens de spécialisation sont représentés par des arcs droits et obliques et on remarquera aussi la présence d'un nouveau sigle ; il représente un arbre à arcs brisés et indique pour la racine l'appartenance de celle-ci à un arbre de dépendances. Il permet aussi, par un simple clic de faire apparaître la vue des relations de dépendance de cet objet. 6.3.5 Itérations Lorsque l’expert décèle plusieurs sortes d’un même objet à décrire sur un même spécimen et qu’il ne souhaite pas imposer sa propre classification locale des objets (comme celle qui existe pour les amphidisques ou les symptômes sur folioles sous forme d’arbres de spécialisation), il doit indiquer le nombre maximum d’itérations possibles pour la description d’un objet (objet multiinstanciable). L’itération ne se caractérise pas par un arbre reliant plusieurs objets entre eux mais par une boucle sur un seul objet qui peut être instancié plusieurs fois (voir le schéma de la structure du modèle descriptif p. 116). Il s’agit d’une troisième dimension de description d’un objet, que nous pouvons schématiser comme un empilement de descriptions ponctuelles. Afin de mieux comprendre l’itération, il faut se mettre dans la situation au moment ou le questionnaire est utilisé pour faire une description. Au départ, on a un modèle d’objets composites ❶ qui constitue la 1 ère dimension horizontale du processus de description et que l’on va utiliser de la manière suivante : 164 Chapitre 6 ×4 ❶ arbre de composition ×4 ❸ spécialisation ×4 ❷ instanciation ×4 ❹ renseignement des attributs puis des sous-parties ×4 objet instance objet spécialisant multi instanciation ➎ itération Fig. 6.5 : Processus de description d’un spécimen dans le questionnaire Lorsque l’on veut faire une nouvelle description, on se situe à la racine. L’instanciation de cet objet est provoquée par la décision de le décrire. La description de l’objet fait suite à l’observation du spécimen. Néanmoins, le modèle descriptif impose un certain ordre pour décrire les objets (selon un certain parcours du plus général au plus particulier). De plus, au niveau de chaque objet à décrire, le modèle donne des conditions pour ce qui est observable sur chacun d’eux. Par exemple, dans le modèle ci-dessus, l’objet racine ne peut être que présent, il ne peut pas être spécialisé, renseigné localement par des attributs ou bien encore multi-instancié comme l’objet lui succédant. C’est en confrontant l’observation à ce qui est possible d’observer que l’on produit une description d’objet. Formalisation informatique des descriptions : HyperQuest 165 La procédure de description d’un objet composite implique la navigation dans le questionnaire par effet de bord. Cette procédure est celle de consultation du questionnaire décrite par l’algorithme suivant : Décrire (racine) Fin Procédure Décrire (objet) si objet inconnu alors Fin procédure si objet absent et si statut = “absence possible” alors Fin procédure ❷ Instancier(objet) ⇒ objeti ❸ si ∃ spécialisation[objeti] et si statut = “spécialisable” alors Substituer(objeti) ⇒ objeti = spécialisation[objeti] fin si ❹ tant que ∃ attribut[objeti] alors Renseigner (attribut[objeti]) si objet non terminal alors Décrire (sous-partie d’objet) tant que ∃ autre-sorte d’objet et si statut = “multi-instanciable” alors Instancier(autre-sorte) fin tant que Fin Procédure ➎ La plupart des objets de l’arbre de composition seront instanciés une seule fois lors des descriptions. Après, ils pourront ou non être remplacés par un objet spécialisant (2ème dimension verticale de la description). Ensuite, s’il existe des attributs de l’objet à décrire, ceux-ci seront renseignés avant de s’intéresser à la description de ses sous-parties. Enfin, une itération permettra de boucler plusieurs fois sur la description de l’objet ; chacune des instances produites pourra à son tour être spécialisée si nécessaire. Nous pouvons remarquer que l’itération est un processus d’instanciation (3ème dimension diagonale de la description) qui est toujours mis en œuvre au moment du passage de l’observable à l’observé : quand cette itération est unique, elle correspond à une instanciation simple (l’objet se transforme en instance d’objet par copie différentielle [Bailly et al., 1987]). Quand elle est multiple, nous l’appelons une multi-instanciation d’objet et le résultat correspond à la notion de horde [Diday, 1991] composite [Conruyt et al., 1992]. 166 Chapitre 6 Donc, pour constituer un modèle robuste de l’observable, il faut avoir en mémoire l’ordre prédéterminé des différentes phases du processus de description de l’observé (figure 6.5) : 1) instanciation d’un objet, 2) spécialisation d’un objet, 3) renseignements sur l’objet, 4) itération sur l’objet. Ce fonctionnement se réfère à tout ce qui est observable sur un spécimen. Nous préconisons que ce modèle soit structuré sur papier afin de trouver les objets et les relations qu’ils entretiennent entre eux, ainsi que leurs attributs descriptifs et les valeurs possibles. En effet, la philosophie de l’éditeur de modèle n’est pas d’être un gestionnaire d’idées (les objets eux mêmes) que l’on relierait entre elles sur un brouillon pour découvrir les relations entre objets. Ces objets traduisent une réalité concrète avec un certain ordre dans le processus de description. HyperQuest n’est pas destiné à construire un réseau sémantique avec des objets et des relations de toute nature placés un peu au hasard. La finalité est ici de construire un questionnaire “guide d’observation”, ce qui implique une démarche analytique du plus général au plus particulier avec une organisation logique des objets et des relations. Chaque nœud de l’arbre (un objet) doit être apprécié selon son homogénéité de description afin de ne décrire complètement qu’une seule chose à la fois avant de passer à la description d’un autre objet. Une fois la structure préétablie, l’expert aidé ou non du cogniticien va pouvoir saisir son modèle de l’observable à l’aide des éditeurs d’objets, d’attributs et de valeurs. Formalisation informatique des descriptions : HyperQuest 167 6.3.6 Edition d’un objet Les vues globales ont pour principe de représenter le modèle graphiquement sous la forme d’arbres. Elles permettent ainsi de visualiser non seulement tout ou une partie des objets mais surtout les liens entre ces objets. Les vues locales, quant à elles, permettent d'obtenir avec plus de précision des renseignements sur chacun des objets. Une fenêtre entière sous forme de carte HyperCard leur est consacrée (figure 6.6) qui est activée dès que l’utilisateur double-clique sur un des objets de la vue globale : Fig. 6.6 : Fenêtre d’édition de l’objet “corps” de Hyanonema L'éditeur d'objet se décompose en quatre zones : ❶ Une première zone en haut à droite nous permet d’éditer le nom de l’objet. ❷ Une seconde zone dans le cadre à gauche donne tous les renseignements concernant les caractéristiques de l'objet observable en cours d'édition : - son statut (définition § 4.6.5.1), - son genre (définition § 4.6.5.3.1), - ses attributs (définition § 4.6.5.2). ❸ Une troisième zone à droite permet d’éditer les renseignements concernant les relations de l'objet avec d'autres objets. Les boutons “dépendances” et “spécialisations” permettent respectivement d’afficher les dépendances et les spécialisations de l'objet. Le bouton “Autres” n’est là que pour indiquer 168 Chapitre 6 la possibilité ultérieure de définir ses propres relations. Cette fonctionnalité n’existe pas dans cette version d’HyperQuest. ❹ Une quatrième zone en bas de la carte permet d'éditer les éléments des listes d'attributs, de dépendances et de spécialisations et d’effectuer les corrections nécessaires qui se répercuteront dans les vues globales. Ces fonctionnalités s’intitulent “Déplacer” pour modifier la présentation des objets et des attributs, “Supprimer” pour ôter un élément d’une liste, “Tout supprimer” pour effacer la liste entière et enfin “Renommer” pour modifier le nom d’un élément d’une liste. Toutes ces fonctionnalités sont décrites dans le manuel d’utilisation d’HyperQuest [Conruyt & Dumont, 1993]. La carte d'édition d'un objet comprend aussi en plus des quatre zones précédemment décrites des boutons permettant de naviguer dans l'éditeur de modèle : Donne la possibilité à l’expert de voir directement la transformation de la définition conceptuelle de l’objet en une carte du questionnaire telle qu’il sera généré par la suite. L’action de ce bouton est de construire en parallèle à l’édition de l’objet la carte des entités hypertextes correspondant uniquement à la vue de cet objet. Les figures 6.12 illustrent le résultat de cette action pour l’objet “corps”. La carte peut alors être personnalisée directement sans attendre la phase de génération automatique de tout le questionnaire (§ 6.4.1). L’expert peut par exemple importer dans la carte un dessin schématique du corps d’une éponge pour expliquer la différence entre les macro constituants et les micro éléments ; il peut aussi indiquer les caractéristiques du microscope (grossissement) dont il faudrait disposer pour observer les micro éléments. Si l’expert possède le soucis d’expliquer par un dessin et des messages les termes qu’il emploie, la robustesse du système n’en sera que meilleure. La personnalisation des cartes du questionnaire se justifie donc pleinement au niveau de l’acquisition de l’observable. Annule toute action menée depuis l'accès à la carte. En effet, les opérations de suppression, renommage, etc. ne seront pas prises en compte. L’erreur est un droit fondamental de l’expert qui peut décider à tout moment de modifier son modèle descriptif ou de ne pas tenir compte d’informations non encore répertoriées (enregistrées dans la structure du modèle). Par contre, le fait de cliquer ce bouton valide les informations saisies dans la carte et retourne à l'une des vues globales de dépendances ou de spécialisations. Formalisation informatique des descriptions : HyperQuest 169 6.3.7 Edition d’un attribut De même que pour les objets, chaque description d’attribut nécessite la mise à jour d’informations sur une carte dont voici un exemple : Fig. 6.7 : Fenêtre d’édition de l’attribut “forme” du corps de Hyalonema On accède à cette carte par deux moyens : soit à partir des vues globales en double-cliquant sur le nom d’un attribut ou bien à partir de la vue locale d’un objet en double-cliquant aussi sur un attribut. La carte “attribut” se décompose en trois zones : ❶ La première zone en haut à droite nous renseigne sur le nom de l'attribut. ❷ Une seconde zone nous indique le nom de l'objet auquel cet attribut est rattaché. Ce champ comme celui du nom de l’attribut est inaccessible depuis la carte d’édition d’un attribut (on ne peut modifier les noms de l’objet et de l’attribut qu’à partir de la vue locale de l’objet). Cette caractéristique montre que la vue locale d’un attribut est subordonnée à celle de son objet, comme cela paraît souhaitable. 170 Chapitre 6 ❸ Une troisième zone donne de multiples renseignements sur l'attribut : Son type ... (§ 4.6.5.2.1) Huit boutons permettent de définir le type d'un attribut. Six d'entre eux sont exclusifs : un attribut est soit entier, soit nominal, soit commentaire, soit réel, soit classifié, soit booléen. Ses valeurs possibles ...(§ 4.6.5.2.2) Si le type de l'attribut est nominal, commentaire, classifié ou booléen, les valeurs possibles sont éditables dans des champs défilants accessibles directement par simple clic (figure 6.7). Les espaces ne sont pas autorisés dans la saisie de valeurs nominales, ils doivent être remplacés par des tirets “-”. Les valeurs “oui” “non” sont mises par défaut dans le cas d'un attribut booléen, dans les autres cas il s'agit du caractère “*” qui correspond à n'importe quelle chaîne de caractères. Dans le cas d'un type “classifié” un triangle noir apparaît à la base de la liste des valeurs possibles ; il s'agit d'un bouton qui (figure 6.7), lorsque l'on clique dessus, donne accès à la carte d'édition des valeurs classifiées (§ 6.3.8). Si le type de l'attribut est entier ou réel, les valeurs possibles sont saisies sous la forme d'un intervalle de valeurs dont on précise l'unité. Ces trois informations (valeur minimale, valeur maximale, unité) sont saisies dans des champs d’édition : Fig. 6.8 : Les champs d’édition d’un attribut numérique Sa valeur par défaut ...(§ 4.6.5.2.3) Il s'agit d'un champ dans lequel l'utilisateur est libre de saisir ce qu'il veut comme valeur par défaut de l’attribut. Son choix ...(§ 4.6.5.2.4) Ce champ n'apparaît que lorsque l’un des types “nominal” ou “classifié” a été choisi auparavant. Deux cases de saisie permettent de désigner le Formalisation informatique des descriptions : HyperQuest 171 nombre minimal et maximal de choix possibles pour un choix multiple. Les boutons “unique” et “multiple” sont exclusifs. Sa question associée ...(§ 4.6.5.3.2) La question associée à un attribut est saisie dans un champ défilant où l'utilisateur est libre d'inscrire ce qu'il désire. La carte d'édition d'un attribut comprend aussi en plus des trois zones précédemment décrites des boutons permettant de naviguer dans l'éditeur de modèle : Comme pour un objet, cette action donne la possibilité à l’expert de voir directement la transformation de la définition conceptuelle de l’attribut en une carte du questionnaire. La figure 6.17 montre le résultat de cette action pour l’attribut “forme” du corps de la Hyalema. La carte peut alors être personnalisée en y ajoutant des dessins explicatifs (figure 6.26). Permet l’annulation de toute action menée depuis l'accès à la carte. Accède à l’édition de l’objet auquel est rattaché cet attribut. Valide les informations saisies dans la carte et retourne à l'une des vues globales de dépendances ou de spécialisations. 6.3.8 Edition des valeurs classifiées Dans le cas d'un attribut classifié, la description des valeurs possibles nécessite la mise à jour d'informations sur une carte dont voici un exemple dans une classification à deux niveaux : 172 Chapitre 6 Fig. 6.9 : Fenêtre d’édition des valeurs classifiées de la “forme” du corps de Hyalonema La carte “valeurs classifiées” se décompose en trois zones : ❶❷ une première et seconde zone indiquent respectivement le nom de l'attribut auquel les valeurs se réfèrent et le nom de l'objet possédant l'attribut. Ces champs sont inaccessibles en écriture depuis la carte des valeurs classifiées. ❸ une troisième zone sous la forme d’un champ défilant permet la saisie des valeurs classifiées selon un format d’indentation en cascade utilisant les tabulations particulières “>”. 6.4 Le générateur automatique de questionnaire Le générateur de questionnaire est un module HyperQuest qui permet de passer de l’éditeur de modèle à l’éditeur de cas (le questionnaire). Il est un élément charnière qui transforme un modèle de l’observable en un questionnaire permettant d’éditer l’observé (cf. figure 2.4). 6.4.1 Principe de construction d'un questionnaire Pour fabriquer le questionnaire, le générateur exploite la correspondance existant entre les concepts de description (objets, attributs, valeurs) et les objets hypertextes : cette correspondance est expliquée au § 6.4.2. Le générateur de questionnaire est formé d’une seule pile HyperCard : Formalisation informatique des descriptions : HyperQuest 173 Fig. 6.10 : La pile de génération du questionnaire Cette pile sert de moule à la fabrication d’un questionnaire <Questionnaire>. Elle ne contient en principe qu’une seule carte au départ (celle de la figure 6.10). La pile est d’abord dupliquée et prend le nom du domaine d’application (par exemple <Questionnaire Hyalonema>). La copie est ensuite développée automatiquement par des procédures hypertextes (programmées en HyperTalk) qui font s’accroître le nombre de cartes d’autant qu'il y a d'objets, d'attributs et de valeurs hiérarchisées décrits dans le domaine descriptif. Les cartes générées du questionnaire portent les noms <Objet> pour les objets, <Attribut(Objet)> pour les attributs, <Valeur(Attribut)> pour les valeurs classifiées (1er niveau), <SousValeur(Valeur)> pour les valeurs classifiées (2ème niveau), etc.. La durée de création de la pile <Questionnaire> dépend du nombre d’objets, d’attributs et de valeurs à traiter et du type d’ordinateur. A titre d’indication, il faut 6 mn à HyperQuest sur un Macintosh PowerBook 170 avec 8 Mo de mémoire vive pour créer un questionnaire de 74 cartes comprenant 25 objets, 40 attributs et 98 valeurs. Ce temps correspond à la création de toutes les entités hypertextes (cartes, boutons, champs) de la pile du questionnaire. Néanmoins, si des objets ou des attributs ont été visualisés auparavant dans l’éditeur de modèle, le générateur de questionnaire a déjà construit la carte correspondante du questionnaire dans sa propre pile. De ce fait, la pile possède déjà un certain nombre de cartes prêtes pour le questionnaire. Au moment de la création en série de toutes les cartes par le choix “Créer le questionnaire”, le générateur de questionnaire possède donc déjà certaines cartes d’objets, d’attributs ou de valeurs classifiées qu'il n'a pas besoin de fabriquer. 174 Chapitre 6 Une fois le questionnaire du domaine engendré, le générateur de questionnaire reprend sa taille initiale (une carte) au moment de la fermeture de la pile. 6.4.2 Entités conceptuelles et hypertextes Pour pouvoir construire automatiquement un questionnaire à partir du modèle descriptif, il faut définir les transformations possibles entre les entités conceptuelles et les entités hypertextes. Comme nous l’avons déjà dit au chapitre 3, les connaissances observables sont représentées dans un formalisme à base de frames (§ 4.5). Le formalisme informatique que nous utilisons pour représenter le modèle descriptif est différent du formalisme mathématique défini au chapitre 5. Ce dernier s’intéresse plus aux données elles-mêmes dont il veut formaliser la complexité (objets booléens, modaux, probabilistes, possibilistes, etc.). Or, si la complexité des données est une chose à ne pas négliger, nous souhaitons néanmoins bien distinguer la représentation de l’observable (le modèle descriptif) de la représentation de l’observé (les cas) afin d’assurer la cohérence du dernier par rapport au premier. Par exemple, les règles chez les objets munis de méthodes et de propriétés (§ 5.4) ne font pas partie de l’observé mais de l’observable. Elles interviennent lors de l’établissement des descriptions pour maintenir leur cohérence, mais n’ont plus lieu d’être indiquées une fois celle-ci assurée. D’autre part, nous avons choisi de nous placer dans un cadre d’objets booléens2 plutôt que dans celui des objets modaux. Ce choix nous semble plus proche de la pratique concrète pour représenter des descriptions de spécimens : en les observant, l’expert sait décider si oui ou non ils appartiennent à telle classe, ou encore si telle instance d’un composant de l’individu appartient à tel objet. L’expert n’a pas d’état d’âme en décrivant des individus et ne perçoit pas bien l’intérêt de pondérer ses choix à ce moment par des incertitudes. Cette manière de décrire avec des modalités telles que couleur(corolle) = souvent rouge, rarement blanche correspond plus à l’approche par “descriptions” de concepts [Vignes, 1991], [Lebbe, 1991]. Cette approche est à nos yeux une manière de faire des descriptions potentielles (ce n’est pas de l’observé qui est décrit mais de l’observable qui est défini). Pour représenter l’observable, nous nous baserons donc sur les langages de frames dont l’opérationnalité a déjà été largement éprouvée avec KRL [Bobrow & Winograd, 1977], FRL [Roberts & Goldstein, 1977], SHIRKA [Rechenmann, 1985], [Aguirre, 1989] ou KATE [Manago, 1988]. 2 Objets dont la valeur de vérité est soit vraie soit fausse. Formalisation informatique des descriptions : HyperQuest 175 Le formalisme informatique est écrit en LCRC ou CASUEL. Il utilise des mots clé tels que “defObject”, “defSlot” et “defValue” qui permettent de repérer les entités conceptuelles et les mots “subpart” et “spec” pour définir les relations entre objets. Cette connaissance modulaire est écrite selon une syntaxe BNF (voir annexe 4), puis est interprétée dans HyperQuest pour être convertie en entités hypertextes au moment de la création du questionnaire. Les correspondances définies sont les suivantes : modèle descriptif -----------------> objet --------------------------------> attributs d'un objet----------------> attribut de l'objet------------------> composants d'un objet -----------> spécialisations d’un objet --------> valeurs d'attribut qualitatif ------> valeurs d'attribut numérique ----> valeurs d'attribut commentaire --> règles et contraintes --------------> pile <Questionnaire> carte de la pile <Questionnaire> champs de la carte <Objet> item (ligne) dans le champs de carte <Objet> boutons de la carte <Objet> boutons de la carte <Spécialisations(Objet)> boutons de la carte <Attribut(Objet)> boutons curseur de la carte <Attribut(Objet)> boite de dialogue de carte <Attribut(Objet)> scripts liés aux champs et boutons de carte. Les transpositions définies ci-dessus sont valables pour n’importe quel type d’application, ce qui rend le générateur de questionnaire indépendant du domaine étudié (généricité inter-applications). De plus, chaque entité hypertexte (cartes, boutons et champs) est porteuse d’un message prédéfini qui conservera un même type d’action dans le questionnaire (par exemple une procédure de navigation). Ces message sont constitués une fois pour toute et sont reproduits à chaque création d’une instance d’un objet hypertexte (généricité intra-application). Nous allons maintenant illustrer ces correspondances à l’aide du questionnaire généré pour le domaine des Hyalonema. 176 Chapitre 6 6.5 L’éditeur de cas : le questionnaire3 Dans le paragraphe précédent, nous avons défini les liens entre entités conceptuelles et entités hypertextes. Ce choix a été fait à la suite de nombreuses études sur le terrain pour proposer un questionnaire convivial et ergonomique aux utilisateurs dans le domaine de la biologie. Nous sommes convaincus que ces qualités ne peuvent qu'améliorer la robustesse des descriptions à acquérir. Nous exposons donc dans cette partie de la thèse les caractéristiques et fonctionnalités attendues d'un bon questionnaire d'acquisition d'exemples pour l'apprentissage. Caractéristiques 6.5.1 Représentation de l’individu L’individu observable est représenté dans le modèle descriptif à la racine de l’arbre de composition. Il est censé identifier le domaine. Le modèle descriptif est donc assimilable à la pile du questionnaire dont la première carte représente l’individu. On accède directement à cette carte en entrant dans le questionnaire : Fig. 6.11 : La première carte de la pile du Questionnaire Hyalonema 3 Cette partie reprend certaines informations contenues dans [Conruyt & Dumont, 1993]. Formalisation informatique des descriptions : HyperQuest 177 6.5.2 Représentation des objets de l’individu 6.5.2.1 Un objet = une carte Il y a autant de cartes dans la pile que d’objets à décrire. Chaque carte (objet) possède ses propres caractéristiques et des relations avec d'autres cartes de la pile. Les caractéristiques d’un objet donné apparaissent dans un champs de la carte alors que les liens relationnels sont au niveau des boutons de cette carte. L'exemple suivant montre la correspondance entre la description au format LCRC de l'objet “corps” de l'éponge marine et la carte de la pile du questionnaire (figure 6.12) : (defobject corps (gender ms) (subpart macro-constituants micro-elements) (slot forme taille consistance couleur)) Fig. 6.12 : Cartes des caractéristiques et des composants de l'objet “corps” de Hyalonema 178 Chapitre 6 Cet exemple met en évidence les points suivants : pour renseigner quel est l'objet courant, un titre est construit automatiquement à partir de l'information sur l’objet, son genre (ms pour “masculin-singulier”) et sur le type de description locale (caractéristiques, composants ou spécialisations). Ici, le corps est une dépendance de l'objet “description”. Par navigation, on peut l’atteindre en cliquant sur la flèche incurvée de gauche (l'incurvation indique une remontée vers la racine à gauche de l’arbre des dépendances). Le message suivant est déclenché et on aboutit à la carte <Description> : on mouseUp get card field "Surpartie" visual effect scroll down fast go to cd it end mouseUp Les caractéristiques (slot) et les dépendances de l'objet (subpart) sont représentées par des entités hypertextes (champs et boutons). Elles sont placées sur la même carte du fait qu’il s’agit de la description locale d’un objet, et on y accède en cliquant sur la flèche triangulaire de droite. On bascule ainsi des caractéristiques de l'objet à ses composants sur la même carte et réciproquement. Cette présentation des objets avec deux volets (caractéristiques et relations) est à rapprocher avec celle de la carte d’édition des objets dans le modèle descriptif (figure 6.6). Le personnage en bas à droite est un coursier qui emmène sous son bras la description du cas courant afin de procéder à un enregistrement dans la base de cas (pour la classification) ou bien à une consultation du système expert (pour l'identification d'une nouvelle observation). Les deux autres boutons sont des fonctionnalités de navigation et de personnalisation des descriptions (voir § 6.5.10). 6.5.2.2 Représentation des statuts possibles d'un objet Les statuts possibles sont les propriétés d’un objet observable telles que la cardinalité et la multiplicité de l’objet (voir § 4.6.5.1). Pour la cardinalité, considérons l'objet “cone-central” de l'éponge : (defobject cone-central (part-of face-exhalante) (cardinal 0 1) (...)) Formalisation informatique des descriptions : HyperQuest 179 La cardinalité de cet objet indique qu'il peut ne pas y avoir présence de l'objet (cardinal = 0) et que s'il est présent, alors il y en a un seul (cardinal = 1). Par défaut, on n'écrit pas dans les fichiers au format LCRC la possibilité pour un objet d'être inconnu car c’est le statut qui est défini pour tous les objets du modèle descriptif. Le premier chiffre suivant le mot clé “cardinal” indique la cardinalité minimale, le second chiffre étant la cardinalité maximale de l’objet. Au niveau du questionnaire, la représentation des statuts possibles d'un objet se traduit par des boutons sélecteurs d'état comme on peut le voir sur la figure 6.13 suivante : Fig. 6.13 : Représentation des différents états d'un objet dans le questionnaire L'utilisateur doit cliquer sur le bouton précédant le nom de l'objet à décrire pour indiquer le statut de cet objet : “+” pour la présence, “-” pour l'absence, “?” pour l'inconnu. En ce qui concerne la multiplicité d’un objet, on peut se reporter au § 6.5.5 sur la représentation des multi-instanciations d’objets. 6.5.3 Représentation des attributs d’un objet Pour donner une valeur à l’attribut d’un objet, on clique sur le nom de l'attribut dans le champ des caractéristiques de l’objet (figure 6.12), ce qui a pour effet d'accéder à une autre carte intitulée <Attribut(Objet)>. Celle-ci donne la liste des valeurs possibles pour cet attribut. Les attributs sont définis en LCRC dans un fichier séparé des objets et possèdent des types différents (qualitatifs, numériques, commentaire, classifié). 180 Chapitre 6 6.5.3.1 Attributs qualitatifs Prenons la couleur du corps de l'éponge dont voici la définition en LCRC : (defslot couleur corps nominal (range blanchatre grisatre autre) (default blanchatre) (question "Quelle est la couleur du corps?")) Cet attribut sur le corps de l’éponge est de type nominal. Les valeurs possibles sont indiquées dans le “range” ou domaine d’observation (§ 4.6.5.2.2). L’utilisateur sera amené à faire un choix unique (§ 4.6.5.2.4). Le nombre de choix possibles est unique par défaut, sinon il serait précisé dans la définition de l’objet. La question posée pour la consultation apparaît dans le champ “question” (§ 4.6.5.3.2). On remarque aussi qu'il existe une valeur par défaut indiquée dans le modèle descriptif pour la couleur (§ 4.6.5.2.3). Cette valeur mentionnée par l'expert est la plus fréquemment observée mais l'utilisateur peut néanmoins spécifier une autre couleur pour un spécimen donné. Lors de la construction du questionnaire, cette valeur par défaut vient s'ajouter automatiquement comme valeur de la couleur (figure 6.12). La transformation de cette définition donne la carte de la figure 6.14 : Fig. 6.14 : Correspondance entre un attribut qualitatif et la carte <couleur(corps)> On remarque dans cette carte l'apparition du bouton “?”. Il s’ajoute de manière automatique lors de la génération du questionnaire et indique la possibilité pour l'attribut d'avoir comme réponse de l’utilisateur : “je ne sais pas” ou “inconnu”. Remarque : le choix de la réponse “autre” appelle un commentaire en texte libre (voir § 6.5.3.3). Formalisation informatique des descriptions : HyperQuest 181 6.5.3.2 Attributs numériques On peut prendre l'exemple de la longueur d'un micro élément de l'éponge (les “tignules”) dont voici la description au format LCRC et la correspondance dans le questionnaire (figure 6.15) : (defslot longueur tignules real Interval (range 1.0 20.0) (unit mm) (question "Quelle est la longueur des tignules ?")) Fig. 6.15 : Correspondance entre un attribut numérique et la carte <longueur(tignules)> Ici, l'attribut numérique est un réel mais il pourrait aussi s'agir d'un entier naturel. Dans le cas d'une valeur comprise dans un intervalle, l'utilisateur dispose d'une échelle munie d'un minimum et d'un maximum. Cette échelle est logarithmique. L'utilisateur peut aussi indiquer la précision de ses mesures par le nombre de chiffres significatifs (1, 2 ou 3 chiffres significatifs). On recopie l'unité de mesure de la valeur numérique dans le champ “unit”. 6.5.3.3 Attributs commentaires Un attribut commentaire (ou chaine de caractères) est une information supplémentaire sur le cas à décrire qui ne sera pas prise en compte lors de l'induction ou du raisonnement par cas. En effet, l'apprentissage de règles de décisions se fait “en monde fermé” c'est-àdire lorsque l'on a prédéfini tous les objets, attributs et valeurs observables. Les attributs commentaires sont des caractéristiques d'un questionnaire “ouvert” sur lesquels on ne peut fixer à l'avance les réponses possibles. C'est une information utile pour replacer les cas dans leur contexte. L'expert dispose ainsi d'un moyen de contrôle des réponses fournies. Il pourra par la suite redéfinir de nouveaux descripteurs intégrant la variation des réponses des utilisateurs. 182 Chapitre 6 Prenons comme exemple la localité à laquelle appartient un individu : (defslot localite contexte comment (default ?) (string "localité") (question "Origine du Specimen?")) La transformation de cet attribut donne la carte suivante (figure 6.16) avec une boite de dialogue dans laquelle l'utilisateur peut rentrer sa valeur : Fig. 6.16 : Correspondance entre un attribut commentaire et la carte <localité(contexte)> 6.5.3.4 Attributs classifiés Certaines valeurs peuvent être structurées (voir § 4.6.5.2.2) selon une hiérarchie de classification (taxonomie de valeurs). Prenons l'exemple de la forme du corps de l'éponge dont les valeurs sont représentées sous la forme d'une hiérarchie à deux niveaux. Voici une description au format CASUEL d'un tel attribut : defslot forme of corps type corps_forme_type; cardinal [1:2]; french_question "Quelle est la forme du corps de l'éponge ?". deftype corps_forme_type a_kind_of taxonomy; range [forme [subcylindrique [en-bouteille cylindroïde]] [renflee [en-flute en-corolle piriforme ovoide bulbiforme]] [evasee [en-tronc-de-cone en-cloche en-cratere en-cone entrompette en-cornet]] [aplatie [en-lame-repliée en-galette]] [mal-definie [irrégulier amyboïde]]]. Formalisation informatique des descriptions : HyperQuest 183 A un premier niveau, la forme du corps de l'éponge peut prendre comme valeurs “subcylindrique”, “renflée”, “évasée”, “aplatie” et “mal-définie”. Le second niveau est constitué des spécialisations de chacune de ces valeurs. La valeur “renflée” peut être précisée pour sa part en 5 sous-valeurs : “en-flûte”, “encorolle”, “piriforme”, “ovoïde” et “bulbiforme”. La cardinalité indique le nombre de choix possibles, l'utilisateur est limité ici à 2 valeurs au maximum. Voici la carte du questionnaire correspondant à la définition de la valeur “renflée” (figure 6.17) : Fig. 6.17 : Les sous-valeurs de la carte <renflée(forme)> Lorsque la cardinalité d’un attribut est supérieure à 1, on construit le bouton “Ok” pour permettre la validation des choix de l’utilisateur. Sur la figure cidessus, le descripteur a choisi les valeurs “en-corolle” et “ovoïde” pour indiquer le doute sur la forme renflée du corps de son spécimen. Il lui faut maintenant cliquer sur le bouton “Ok” pour retourner au niveau supérieur de la taxonomie des valeurs. Rappel : un choix multiple traduit une imprécision et non pas une présence simultanée (voir § 4.6.5.2.4). 6.5.4 Représentation des spécialisations d’un objet Outre la relation de dépendance entre objets, il y a les relations de parenté ou de recouvrement qui indiquent une hiérarchie entre deux objets dont l'un est plus général que l'autre. Cela se représente par une relation de spécialisation : un objet se spécialise en un “sous-objet”. Par exemple, dans le système TOM, les objets “tache” et “nécrose” sont des spécialisations de l'objet “symptôme sur folioles”. L'intérêt de représenter cette connaissance des liens entre certains objets est double : 184 Chapitre 6 1) il permet de faire hériter les propriétés des objets les plus généraux vers les objets les plus spécifiques. Ainsi, on ne définit les propriétés spécifiques à chacun des objets qu'à leur niveau, les propriétés communes étant mises en facteur au niveau d'un objet plus général. Une procédure se charge d'enrichir les spécialisations. Prenons l’exemple de la figure 6.1 ou la description du symptôme sur folioles peut être précisée par un objet de l’arbre de spécialisation : (defobject symptome-sur-folioles (part-of folioles) (gender fp) (subobject taches-ou-plages-ou-necroses fletrissement anomalie-de-coloration) (string “symptôme sur folioles”) (slots repartition-sur-la-plante repartition-sur-la-feuille)) Fig. 6.18 : Représentation du lien de spécialisation de l'objet “symptôme sur folioles” Le lien de spécialisation est symbolisé par une flèche verticale descendante dans le questionnaire (figure 6.18). En cliquant sur cette flèche, on accède à une carte intitulée <Specialisations(Objet)> (figure 6.19) qui permet de préciser l'objet générique. Cette carte est différente de la carte parente, ce qui donne la possibilité à l'utilisateur d'associer des dessins illustrant les sous objets sans interférer avec les illustrations des composants de l'objet. Formalisation informatique des descriptions : HyperQuest 185 Fig. 6.19 : Vue de la carte <spécialisations(symptome-sur-foliole)> L'utilisateur fait son choix parmi la liste des sous objets. Prenons l'objet “taches ou plages ou nécroses” décrit de la manière suivante au format LCRC : (defobject taches-ou-plages-ou-necroses (part-of folioles) (gender fp) (superobject symptome-sur-folioles) (subobject taches-ou-plages necroses) (string “taches ou plages ou nécroses”) (slots localisation-sur-foliole proportion-sur-foliole repartition-sur-foliole jaunissement-en-pourtour toucher nombre variabilite forme relief nombre confluence zonations mesure limites couleur)) On remarque dans cette définition que l'on n'a introduit que les attributs propres à l’objet. La transformation de cette description du modèle donne la carte suivante du questionnaire (figure 6.20) : Fig. 6.20 : Représentation de la carte de l'objet “taches ou plages ou nécroses” 186 Chapitre 6 L’objet hérite des attributs du symptôme sur folioles grâce au lien de spécialisation : il en est ainsi pour les attributs “répartition sur la plante” et “répartition sur la feuille”. En continuant à spécialiser le symptôme, on en viendrait à préciser plus encore sa nature en choisissant un des concepts de la disjonction (figure 6.21). Ce faisant, on est amené à restreindre le domaine d’observation de certains attributs ou à introduire de nouveaux attributs plus spécifiques à l’objet spécialisant. Fig. 6.21 : Vue de la carte <spécialisations(taches-ou-plages-ou-necroses)> Ce premier intérêt met l'accent sur l'action elle même d'héritage qui permet de transférer une information plus générale à un objet particulier. C'est une vision descendante de la spécialisation, telle qu'elle est comprise par les informaticiens [Manago, 1988]. 2) A l'inverse, pour le biologiste, la spécialisation se traduit par le remplacement de caractéristiques plus générales par des caractéristiques plus particulières, c'est-à-dire par une substitution (vision ascendante). Ainsi, on passe de quelque chose de plus général à quelque chose de plus particulier. L'héritage n'apparait que comme une conséquence de la spécialisation, qui consiste essentiellement en une détermination de l'objet selon une classification conceptuelle (on reste dans l'observable). 6.5.5 Représentation des multi-instanciations d’un objet La possibilité de décrire plusieurs sortes d'un même objet a été décrite au § 4.6.7. Prenons l'exemple de l'objet “microxyhexactines” du domaine des Hyalonema qui a été défini avec une multiplicité de deux. Cela signifie qu'il est possible de décrire jusqu'à deux fois cet objet pour un même cas. Lorsque l'on clique sur l'objet “microxyhexactines” dans la fenêtre “Composants des micro éléments de la Hyalonema”, la carte suivante apparaît (figure 6.22) : Formalisation informatique des descriptions : HyperQuest 187 Fig. 6.22 : Vue de la carte des instances multiples de l'objet “mycroxyhexactines” Elle a autant de boutons que l'on peut décrire de sortes de microxyhexactines (ici deux boutons). Chaque label de bouton est suivi d'un numéro : (1) pour la première description de l'objet, (2) pour la seconde. Décrire l'objet microxyhexactine(2) avant microxyhexactine(1) n'a aucun sens pour la description de différentes sortes d'un même objet : on décrit toujours une première sorte avant d'en décrire une seconde ! L'ordre que l'on choisit de suivre n'a aucune signification propre. Quel que soit l'objet décrit, microxyhexactine(1) ou microxyhexactine(2), la carte à renseigner est identique. L'utilisateur peut itérer des descriptions différentes du même objet en donnant des valeurs différentes aux attributs. Le passage à la description d'autres sortes d'un même objet s'effectue en cliquant sur la flèche incurvée vers le bas à gauche (figure 6.23) : Fig. 6.23 : Description de la première sorte d'objet “mycroxyhexactines” 188 Chapitre 6 6.5.6 Représentation des règles entre objets Nous avons déjà mentionné les dépendances possibles entre les différents caractères composant une description de spécimen (§ 4.6.8). Nous prendrons un exemple qui permet de visualiser la représentation d'une règle localement sur un même objet : soit la description des orifices situés sur la face exhalante d'une éponge, dans laquelle le slot nombre a pour valeurs observables {unique, quadruple, multiple} : (defobject orifices (part-of face-exhalante) (gender mp) (slots nombre (if (nombre unique quadruple) then (HideSlots dimensions repartition) else? (SetDefaultValues (dimensions ?) (repartition ?))) dimensions repartition)) Cette définition d'objet comporte une règle écrite au format LCRC. C'est une connaissance de bon sens indiquée par l'expert lors de la création de l'objet : Si le nombre d'orifices est unique ou quadruple, alors il ne faut pas s'intéresser à la description des attributs “dimensions” et “répartition” des orifices (mot clé “HideSlots”). Cette règle entre une valeur d'attribut et d'autres attributs du même objet est représentée de la manière suivante dans le questionnaire (figure 6.24) : Fig. 6.24 : Dépendance entre une valeur d'attribut et d'autres attributs En effet, la dimension des orifices n'est plus pertinente dans ce contexte (information fournie par l'expert) et la répartition n'est pas observable Formalisation informatique des descriptions : HyperQuest 189 (information de bon sens). L'utilisateur qui répond “unique” au nombre d'orifices ne peut donc logiquement pas renseigner ces deux attributs (en italique). La règle énonce aussi que si la valeur du nombre des orifices est “inconnu” alors les valeurs des attributs “dimensions” et “répartition” sont aussi inconnues (mot clé “SetDefaultValues”). Cette règle est activée automatiquement dans le questionnaire par un changement d'état des attributs dépendants (passage de la forme cachée en italique à la forme active en gras) et la mise à jour automatique des valeurs “inconnu” pour les attributs dépendants (figure 6.25) : Fig. 6.25 : Dépendance entre une valeur d'attribut et d'autres valeurs d'attributs Toutes ces règles font partie de l'observable, elle permettent d'assurer la cohérence de la procédure de description et participent donc ainsi à la robustesse globale du système. 6.5.7 Personnalisation des objets L’intérêt d’utiliser un questionnaire sous Hypercard est que chaque carte associée à un objet ou à un attribut peut être personnalisée en utilisant les fonctionnalités associées de dessin. En effet, il est très facile d’enrichir la carte par des images dessinées ou collées, et dont certaines zones représentent d’autres objets à décrire (des composants par exemple). On peut aussi illustrer des valeurs d’attribut par des schémas explicatifs. Ensuite, on peut recouvrir ces zones de l’image par des boutons multi-formes et transparents qui permettront de sélectionner l’objet ou la valeur visée de manière équivalente à la sélection du bouton nommé. 190 Chapitre 6 La figure 6.26 suivante illustre la personnalisation de la carte <renflée(forme)> du corps de la Hyalonema : Fig. 6.26 : Association de dessins pour illustrer des valeurs d'attributs La personnalisation des cartes du questionnaire est un facteur ergonomique important pour l'aide à la détermination des objets. Le rôle de l'expert est ici d'illustrer l'observable, c'est-à-dire son propre vocabulaire de description pour le rendre accessible aux autres utilisateurs sans interprétation lors des consultations futures du questionnaire. C'est un facteur non négligeable de la robustesse puisqu'il dissocie l'exactitude des choix de la compréhension d'un vocabulaire. Les changements de personnalisation sont sauvés dans une autre pile (voir § 6.5.9.11). La sauvegarde est utile pour remettre à jour une nouvelle pile avec les anciennes images ou dessins. En effet, dans le cas ou l'utilisateur désire modifier le modèle descriptif (rajouter un nouvel objet observable par exemple), il faudra générer un nouveau questionnaire du fait que sa structure est modifiée. Cette fonctionnalité de sauvegarde est importante dans la mesure où il pourrait y avoir plusieurs versions de modèles descriptifs élaborés par l'expert, et par conséquent plusieurs questionnaires intermédiaires à construire. Néanmoins, il est préférable de ne fabriquer qu'un seul modèle descriptif complet dès le départ pour éviter toutes les remises à jour (le questionnaire et les cas). Remarque : la limite actuelle est qu'HyperCard ne connaît que le noir et le blanc (mode Paint). Un autre moyen de personnaliser la pile du questionnaire peut être d'associer une photo ou une séquence vidéo en couleur à certaines cartes. Cette fonctionnalité peut être intégrée à HyperCard au travers de commandes externes capables d'afficher dans une fenêtre spéciale une image au format PICT ou une séquence filmée QuickTime. Formalisation informatique des descriptions : HyperQuest 191 Fonctionnalités Le questionnaire est une pile HyperCard générée à partir d'HyperQuest. Il permet d'éditer des descriptions pour les trois objectifs suivants : ❶ Rentrer de nouveaux cas dans la base de cas, ❷ Consulter le système expert engendré par KATE, ❸ Consulter le système de raisonnement par cas avec CaseWork. Outre le fait que le questionnaire est un éditeur de cas, des fonctionnalités de personnalisation et de navigation lui sont attachées pour en faire un véritable guide d'observation. Deux menus “Cas” et “Personnaliser” traitent respectivement de la gestion des cas et de la personnalisation des cartes d'édition des cas dans le questionnaire (figure 6.27) : Fig. 6.27 : Les menus "Cas" et "Personnaliser" De plus, chaque carte du questionnaire possède les trois boutons suivants : le bouton “voir une image”, le bouton “naviguer” et le bouton “coursier”. 6.5.8 Le menu “Cas” Nous voici maintenant dans la phase d'utilisation du questionnaire généré pour éditer des descriptions observées. Deux natures de descriptions d'individus sont produites : ❶ Ce sont des cas à enregistrer dans la base de cas si elles contiennent une détermination associée, c'est-à-dire une valeur au niveau de la classe de détermination qui n'est pas inconnue. 192 Chapitre 6 ❷ Ce sont des observations si la classe est inconnue. Ces observations peuvent être stockées dans la base de cas en attendant d'être classifiées mais ne peuvent pas être traitées par KATE et CaseWork sous cette forme. 6.5.8.1 Le choix “Nouveau” Il permet de saisir un nouveau cas en initialisant le modèle descriptif : en effet, l'idée est de partir de l'objet observable situé à la racine du modèle et représenté par une carte (de nom <Hyalonema> dans notre application). “Nouveau” instancie cette carte, c'est-à-dire en effectue une copie (cf. § 6.4.1). La nouvelle carte instanciée possède le même nom plus un numéro d'instance accolé (par exemple “Hyalonema1”). Elle devient ainsi un objet observé4 du domaine que l'on peut décrire, ce n'est plus un concept abstrait. Une fois le modèle initialisé à la racine, le cas existe et l'utilisateur n'a plus qu'à compléter sa description en naviguant pour instancier ses composants. Eux aussi sont des objets observables représentés par un état nul (le carré à gauche du bouton <composant> est vide). Dès que l'utilisateur clique dans un des boutons des composants, l'objet se met à exister : la carte correspondante est instanciée et le carré représentant son statut prend la valeur “+” (voir section 6.5.2.2). Au fur et à mesure de la navigation, la pile du questionnaire s’accroît donc en nombre de cartes, relativement au nombre d'objets observés pour l'individu décrit. Ce processus est valable aussi bien pour les objets “composites” que pour les objets “spécialisants”. Outre la navigation entre les objets, on peut s'arrêter au niveau de la carte de l'objet observé et le décrire avec ses caractéristiques locales. A ce moment, on va renseigner les attributs situés dans le champ de la carte de l'objet observé. Il suffit pour cela de basculer au niveau des caractéristiques de l'objet courant et de cliquer l'un des items du champs associé. On accède ainsi à la carte <Attribut(Objet)> qui permet de renseigner la valeur que doit prendre l'attribut sélectionné. Le schéma de la figure 6.28 illustre la description locale de l'objet observé “Ombrelles1” : 4 Très incomplètement pour l'instant ! Formalisation informatique des descriptions : HyperQuest Fig. 6.28 : Le processus de description locale d'un objet5 5 On peut noter ici l'intérêt d'illustrer l'allongement des ombrelles par un dessin explicatif ! 193 194 Chapitre 6 Notons qu'il n'y a pas de copie d'instanciation des cartes associées aux attributs d'un objet : ces cartes sont mises à jour à chaque fois que l'on y accède selon que l'attribut possède ou non une valeur dans le champ. Elles sont “nettoyées” de la valeur choisie à chaque sortie. Lorsque la description du nouveau cas est terminée, il faut alors le sauvegarder soit pour la base de cas (voir § 6.5.8.4), soit pour la consultation du système expert (voir § 6.5.8.5). 6.5.8.2 Le choix “Dernier” Après enregistrement et fermeture du questionnaire, la pile conserve néanmoins la représentation des cartes instanciées du dernier cas. Ce choix d'implantation est justifié par la pratique d'acquisition des descriptions : en effet, on s'aperçoit que le fait de renseigner un questionnaire d'acquisition d'exemples est en général une opération répétitive, longue et fastidieuse. L'utilisateur doit s'organiser pour rentrer les cas dans un ordre ou les spécimens à décrire sont similaires au niveau des objets à renseigner. Il est alors plus efficace en terme de temps de repartir de la description du dernier cas pour en renseigner un nouveau puis de modifier les quelques caractéristiques divergentes. Cette pratique est celle qui a été suivie lors de l'acquisition des descriptions de Hyalonema : on peut observer à l'annexe 3 les séries de cas décrits les uns à la suite des autres et concernant un même Sous-Genre (Cyliconema par exemple). Il faut faire attention néanmoins à cette facilité qui peut conduire à des descriptions inappropriées par omission de la mise à jour de certains caractères du dernier cas. Remarque : les cas dérivés les uns des autres peuvent être rapprochés des nuances critiques [Winston, 1977] qui sont très importantes dans l'isolement des caractéristiques définissant un concept lors de la discrimination à partir d'exemples. 6.5.8.3 Le choix “Ancien ...” Le questionnaire est un éditeur de cas. Cette possibilité d'édition d'un ancien cas est nécessaire pour la gestion de la base de cas. Elle est utilisée lorsque l'utilisateur désire modifier un ancien cas ou bien se servir de lui comme modèle pour en construire un nouveau (voir paragraphe précédent). L'opération est néanmoins plus coûteuse lorsqu'il s'agit d'importer un ancien cas, du fait que la pile du questionnaire doit d'abord détruire toutes les cartes instanciées correspondant aux derniers objets observés, puis reconstruire l'ancien cas à Formalisation informatique des descriptions : HyperQuest 195 partir de la description stockée dans la base. Le questionnaire demande quel est l'ancien cas à importer puis reconstruit automatiquement les cartes correspondant aux objets observés dans l'ancien cas. 6.5.8.4 Le choix “Enregistrer” Lorsque l'utilisateur a terminé sa description, l'une des possibilités est d'enregistrer ce cas dans la base, les deux autres choix étant de quitter sans enregistrer ou bien de consulter l'expert. Dans le cas d'un enregistrement, le message “Attendez quelques instants..., je récupère la description de votre cas” s'affiche dans la boite d'information6, puis le cas courant vient s'afficher dans un champ (figure 6.29) pour que l'utilisateur puisse vérifier lui même l'exactitude de sa description : Fig. 6.29 : La description du cas en LCRC à enregistrer Nous pensons que la visualisation du cas selon une formule lisible est important avant son enregistrement effectif. Si l'utilisateur s'aperçoit d'une erreur de description, il peut encore la corriger en cliquant sur le bouton “Corriger” qui le fait revenir à la dernière carte qu'il avait quittée pour enregistrer son cas. Sinon, l'utilisateur satisfait de sa description clique sur le bouton “Ok” pour permettre l'enregistrement de son cas dans la base. Il serait bon aussi de présenter une description sous une forme proche du langage naturel comme cela est préconisé dans le schéma global de notre méthodologie (§ 2.4). Il s'agit là d'un module non développé actuellement mais qui pourrait servir à l'édition de descriptions “naturelles” utiles aux biologistes pour leurs monographies. Pour l'heure, l'utilisateur peut néanmoins imprimer la 6 Ces messages ne sont pas superflus car ils instaurent un dialogue avec l'utilisateur, ce qui apporte une certaine convivialité à la procédure et évite les fausses manoeuvres de l'utilisateur (il sait qu'il doit patienter !). 196 Chapitre 6 description du cas au format LCRC ci-dessus en utilisant la fonctionnalité “Imprimer un champ...” d'HyperCard. Il est recommandé d'enregistrer dans la base de cas un cas complet, c'est-à-dire possédant le nom de la classe attachée à la description. Néanmoins, l'utilisateur peut enregistrer une observation puis la compléter plus tard : il s'agit de la possibilité de remplacer un ancien cas de la base par la description courante (figure 6.30) : Fig. 6.30 : Le dialogue permettant de remplacer un ancien cas de la base de cas 6.5.8.5 Le choix “Consulter l'expert” Le questionnaire est aussi un outil permettant de déterminer la classe à laquelle appartient la description courante appelée ici observation. La procédure de consultation est la suivante : ❶ L'utilisateur rentre sa description de l'individu observé dans l'ordre qu'il désire sans être contraint par la procédure de décision du système expert, ❷ Il choisit "Consulter l'expert" dans le menu "Cas" ❸ Comme pour l'enregistrement d'un cas, l'utilisateur peut corriger sa description en la visualisant dans le champ “Exemple” (figure 6.31) : Fig. 6.31 : La description du cas à consulter Formalisation informatique des descriptions : HyperQuest 197 ❹ Le numéro associé à cette description est 0 car il ne comporte pas le nom de la classe. En validant la description, le cas est stocké dans un fichier texte de consultation nommé “consult”, prêt pour la procédure de détermination. ❺ Que ce soit avec KATE (l'arbre de décision) ou CaseWork (raisonnement par cas), la consultation s'effectue automatiquement jusqu'à l'affichage d'un résultat (figure 6.32) : Fig. 6.32 : La consultation du système expert à partir du questionnaire 6.5.8.6 Le choix “Voir la liste” Si l'utilisateur désire visualiser une description déjà enregistrée dans la base, il peut afficher la liste des cas par le choix “Voir la liste”. Il a alors la possibilité de voir la description de l'un des exemples en cliquant sur son numéro ou bien encore d'imprimer la liste des cas déjà saisis par le choix “Imprimer un champ...” d'HyperCard. Cette possibilité est importante pour que l'expert puisse avoir toujours le contrôle de la base de cas : un des objectifs est par exemple de ne pas renseigner deux fois le même cas ! 6.5.8.7 Le choix “Convertir en Casuel” CASUEL est une syntaxe de description des connaissances observables (le modèle descriptif) et des cas qui a été adoptée par le consortium INRECA (projet Esprit n° 6322) pour permettre l'intégration des technologies du raisonnement par cas et d'induction. C'est un langage commun de représentation des connaissances comme le LCRC. Afin de pouvoir utiliser les différents outils du consortium écrits dans différents langages (SmallTalk, C et Lisp), il est nécessaire de convertir ces connaissances au format CASUEL afin que chacun des programmes puisse les traiter. 198 Chapitre 6 6.5.9 Le menu “Personnaliser” 6.5.9.1 Le choix “Préférences...” Ce choix permet de configurer l'application qui a été générée à partir d'HyperQuest. Cet aspect n'est pas développé dans cette thèse, on peut se reporter au manuel d'utilisation d'HyperQuest [Conruyt & Dumont, 1993]. 6.5.9.2 Le choix “Scanner une image” En activant cette option, l'utilisateur peut associer une image pour illustrer les objets ou attributs observables du domaine. Ce choix permet de "scanner" (scannériser) directement avec HyperScanTM des images ou dessins en noir et blanc qui viendront se superposer à la carte courante dans le questionnaire (§ 6.5.10.1). Ce choix est plutôt dédié à l'expert s'il désire illustrer le vocabulaire qu'il utilise par des dessins appropriés, ceci afin de faciliter sa compréhension par l'utilisateur final du système. Inversement, l'utilisateur final peut illustrer sa description observée à l'aide du même outil. La souplesse d'utilisation d'HyperScan est un atout dans le choix d'un outil hypertexte pour illustrer les objets du modèle descriptif. C'est un élément clé de la constitution d'une base de connaissances multi-média. La couleur qui sera intégrée prochainement à HyperCard (version 3.0) dans le cadre de machines plus puissantes (Power PC) ouvrira des perspectives encore plus attrayantes à ces outils hypertextes. 6.5.9.3 Le choix “Tout importer” Ce choix permet de mettre à jour les images d'une nouvelle pile de questionnaire concernant un domaine déjà modélisé auparavant et ayant eu un questionnaire personnalisé. A chaque fois qu'un utilisateur personnalise des cartes dans un questionnaire, il doit “sauver la carte” (§ 6.5.9.11). La carte est alors recopiée dans une autre pile indexée au nom du domaine. S'il s'agit d'une personnalisation de l'observable, le nom de cette pile est “Observable Nom_du_domaine”. S'il s'agit d'une personnalisation de l'observé, le nom de cette pile est “Observé Nom_du_domaine”. La sauvegarde tient compte non seulement des images, mais aussi du nombre, de la nature et de la position de tous les champs et boutons de la carte personnalisée : il en est ainsi des boutons transparents utilisés lors de la procédure “Associer un bouton” (§ 6.5.9.6). En choisissant “Tout importer”, on n'a plus besoin de remodifier des cartes que l'on avait déjà personnalisées dans une précédente version du questionnaire. Formalisation informatique des descriptions : HyperQuest 199 6.5.9.4 Le choix “Importer une image” Ce choix est identique au précédent “Tout importer” mais est spécifique à la carte courante du questionnaire. 6.5.9.5 Le choix “Déplacer l’image” Une fois l’image importée, celle-ci peut ne pas être positionnée correctement à l’endroit voulu par rapport aux boutons de la carte par exemple. “Déplacer l'image” permet de pointer l’image sélectionnée en pointillés et de la déplacer avec la flèche (figure 6.33). La validation se fait en tapant sur la touche “Retour” comme indiqué par le message en bas de la carte. Fig. 6.33 : Déplacer une image dans le questionnaire 6.5.9.6 Le choix “Associer un bouton” Associer un bouton consiste à rendre une zone de l’image sensible à un clic de la souris pour une action déterminée (par exemple pointer vers une sous-partie de l’image d'un objet). Les zones à délimiter pouvant avoir des formes variées, elles sont donc recouvertes de boutons transparents soit rectangulaires soit polygonaux. L'utilisateur doit choisir la forme du bouton qu'il veut associer à la partie de l'image (figure 6.34) : Fig. 6.34 : Associer des boutons multi-formes aux images dans le questionnaire 200 Chapitre 6 Les boutons rectangulaires Par exemple, à partir du dessin de dents dont on cherche à déterminer le type de bordure, l’utilisateur va cliquer sur le bouton “lisse” à associer à la partie de l'image correspondante. En fonction de la forme du dessin, il peut choisir entre un bouton polygonal ou un bouton rectangulaire afin de le recouvrir. S’il choisit le bouton rectangulaire, puis clique sur le bouton “lisse” de la carte <bord(dents)>, une copie transparente de ce bouton vient se placer au milieu de la carte. L’utilisateur peut alors déplacer cette copie sur la partie désirée de l’image, agrandir ou diminuer les limites du bouton avec la flèche (figure 6.35). La boite de messages en bas de la carte indique ce qu’il faut faire pour terminer : Fig. 6.35 : Associer un bouton rectangulaire ou polygonal à une partie d’image Formalisation informatique des descriptions : HyperQuest 201 Les boutons polygonaux Lorsque les formes de l’image à recouvrir sont complexes ou se superposent, il est préférable de recourir à ce choix pour “Associer un bouton” (figure 6.35). Cette option permet de prendre en compte n’importe quelle forme du dessin. Un curseur en forme de croix apparaît à l’écran et l’utilisateur doit entourer la partie de l’image à délimiter. Il devra double-cliquer avec la souris pour fermer le polygone ainsi défini. 6.5.9.7 Le choix “Changer le titre” Il est possible de changer le titre d'une carte quelconque du questionnaire (figure 6.36) pour poser une question différente de celle qui a été générée automatiquement (pour les cartes des objets) ou dans le modèle descriptif (pour les attributs) : Fig. 6.36 : Changer le titre d'une question dans le questionnaire 6.5.9.8 Le choix “Déplacer les boutons” Ce choix permet de visualiser tous les boutons de la carte, dont ceux qui recouvrent des parties d’image afin de les déplacer. Il suffit pour cela de maintenir la souris enfoncée avec la flèche sur l’objet pendant le déplacement. La touche “Retour” termine cette action. 6.5.9.9 Le choix “Eliminer un bouton” Il est possible de détruire les boutons créés : il faut d'abord les sélectionner (en les cliquant une fois) avant de les éliminer. Tous les boutons de la carte sont concernés par ce choix. 6.5.9.10 Le choix “Déplacer les champs” Ce choix est similaire à celui de “Déplacer les boutons”. Il permet de déplacer les textes des champs de la carte. 202 Chapitre 6 6.5.9.11 Le choix “Sauver la carte” Une fois que l'on a associé de nouveaux boutons sur les parties de l'image d'une carte du questionnaire et que l'on a positionné les boutons des valeurs ou objets correspondants, il faut conserver les modifications du questionnaire afin qu'elles puissent être réutilisées par la suite. Elles sont enregistrées sur la pile d'images observables. Cela permet de stocker la configuration de chaque carte personnalisée par l'utilisateur, ce qui s'avère utile lors de la génération d'un nouveau questionnaire. Pratiquement, le fait de sauver une image et les boutons associés dans la pile d'images génère automatiquement les scripts permettant de créer les boutons de forme quelconque, de les déplacer et de commander leur action. Ils sont stockés dans le champ de scripts de la carte correspondante dans la pile d'images observables. 6.5.10 Les boutons 6.5.10.1Le bouton “Voir une image” Ce bouton (figure 6.37) permet de numériser à l'aide d'un scanner et du programme HyperScan TM des images sous forme de cartes HyperCard. Il est destiné à l'utilisateur final du questionnaire qui désire illustrer son cas par des images des différents objets ou attributs qu'il est en train de décrire. Il s'agit pour lui de “prouver” sa description en l'illustrant, ce qui est une information très intéressante pour l'expert afin de valider les cas des autres utilisateurs. C'est aussi la procédure inverse de la personnalisation des objets (§ 6.5.7), puisqu'elle permet d'illustrer l'observé et d'opérer un retour d'information vers l'expert. Fig. 6.37 : Le bouton “Voir une image” de la pile du questionnaire Les images observées sont stockées dans une pile à part et référencées dans la description au format LCRC ou CASUEL : celle d'un objet est indexée au slot “image” par le numéro d'identification de la carte de la pile contenant l'image numérisée (voir figure 6.29). Formalisation informatique des descriptions : HyperQuest 203 HyperScan (figure 6.38) est un logiciel de numérisation d'images ou dessins en noir et blanc très souple d'emploi : Fig. 6.38 : La pile HyperScan Pour une documentation en ligne sur son utilisation, il suffit de cliquer sur le bouton d'aide “?”. Une fois l'image numérisée, le bouton “Enregistrer” permet de coller dans la pile des images observées du questionnaire (“Observé Hyalonema” par exemple) le contenu imagé de la carte HyperScan. Chaque image observée de la pile contient l'image numérisée ainsi qu'un bouton “Ok” de retour au questionnaire. Une fois revenu, cliquer sur le bouton “Voir une image” permet directement l'accès (en plein écran) à l'image numérisée associée à l'objet ou l'attribut dans le questionnaire (figure 6.39) : Fig. 6.39 : Illustration par l'utilisateur d'un objet observé : les amphidisques(2) du cas n° 3 204 Chapitre 6 6.5.10.2Le bouton “Naviguer” Lors de la saisie d'un cas, pour se repérer, l'utilisateur doit pouvoir accéder rapidement à la structure du domaine sur lequel il travaille et ceci à plus forte raison lorsqu'il ne s'agit pas du concepteur du modèle. Fig. 6.40 : Le bouton “Naviguer” du questionnaire Par simple clic sur ce bouton (figure 6.40), la vue globale du domaine s'affiche (figure 6.2) et le mode navigation est activé. Grâce à cette vue d'ensemble, l'utilisateur peut situer à nouveau les objets les uns par rapport aux autres et imaginer facilement le chemin qu'il a déjà parcouru, c'est-à-dire repérer les objets qu'il a déjà décrits. La vue d'ensemble permet de passer de la description d'un objet à un autre sans être obligé de parcourir les cartes du questionnaire correspondant aux objets intermédiaires. Lorsque l'objet visé n'a pas déjà été instancié, il n'est pas présent et ne peut donc pas être atteint par ce mode de navigation : ce saut est interdit. 6.5.10.3Le bouton “Coursier” Le bouton “Coursier”, situé en bas à droite de chaque carte, permet à tout moment de quitter l'application (figure 6.41) : Fig. 6.41 : Le bouton “Coursier” du questionnaire Pour décider si le coursier emporte la description du cas, c'est-à-dire si le cas est enregistré dans la base de cas ou pas, il faut alors répondre à la boite de dialogue qui est déclenchée après sa course (figure 6.42) : Fig. 6.42 : Le dialogue permettant de sortir du questionnaire En choisissant “Enregistrer”, le coursier va stocker la description dans la base de cas à la suite des descriptions déjà enregistrées, sinon “Quitter” n'enregistre pas Formalisation informatique des descriptions : HyperQuest 205 le cas dans la base. Il est néanmoins conservé dans le questionnaire et pourra être retrouvé par la procédure “Dernier” (§ 6.5.8.2) lors de la réouverture de cette pile. 6.6 Conclusion Toutes les caractéristiques et fonctionnalités d’HyperQuest décrites dans ce chapitre ont été implantées pour répondre à l’objectif de robustesse des descriptions en biologie. Le générateur de modèle descriptif d’HyperQuest permet d’éditer les descriptions observables. Elles doivent répondre à des règles d’élaboration précises sur la cohérence des relations entre objets à observer. Nous avons explicité ces règles et nous les avons illustrées à l’aide de notre application sur les Hyalonema. Les définitions des objets du modèle sont ensuite stockées dans des fichiers texte sous forme de frames. Le générateur de questionnaire permet d’automatiser le passage de l’observable à l’observé. Il analyse les frames décrits dans les fichiers et fait correspondre les objets conceptuels structurés sous forme arborescente dans le modèle avec les entités hypertextes du questionnaire. Nous pouvons donc à partir de là construire un questionnaire automatiquement par programme. Nous avons illustré ces différents modes de représentation à l’aide de notre application. Le questionnaire se présente alors comme un guide d’observation interactif et simple d’emploi. Son utilisation pour la constitution d’une base de cas ou la consultation du système expert doit obéir aux objectifs de mise à jour, de redondance et d’ergonomie afin d’obtenir finalement des descriptions observées les plus robustes possible. C’est à partir de ces cas bien décrits (représentés dans un fichier texte) et des connaissances initiales du modèle que l’on va pouvoir améliorer le processus de classification et de détermination. 206 Chapitre 6 VII LE TRAITEMENT DES DESCRIPTIONS BIOLOGIQUES : KATE ET CASEWORK Dans notre méthode d'acquisition des connaissances expliquée au chapitre 2, le traitement des descriptions biologiques est la troisième phase importante du processus qui permet de répondre aux deux objectifs de classification et de détermination en biologie. Initialement en apprentissage, la logique inductive est le raisonnement qui a été utilisé pour répondre à ces deux objectifs afin de trouver une alternative aux systèmes experts traditionnels à base de règles. Aujourd'hui, nous souhaitons aller plus loin dans le choix de différentes méthodes qui seront mieux adaptées chacune à un objectif particulier. Le but de ce chapitre est de montrer en quoi le raisonnement inductif est plus approprié à la problématique de la classification telle que nous l'avons définie au § 2.3.2, et pourquoi une forme de raisonnement analogique, le raisonnement par cas, nous permet de mieux résoudre le problème de la détermination en biologie. Les mérites et limites respectives de ces méthodes sont analysées à la lumière de notre application sur les Hyalonema. En effet, une fois formalisée la base d'exemples (chapitre 5), nous pouvons appliquer différentes méthodes de traitement issues à la fois des recherches en analyse des données et en apprentissage. Il s'agit ici de formaliser le processus de génération automatique de critères de décision pour : 1) fabriquer un arbre de classification (par induction avec KATE), 2) utiliser cet arbre pour la détermination (par déduction avec KATE), 3) comparer directement les exemples pour la détermination (avec un raisonnement de type analogique : CaseWork1). 7.1 Formalisation de l'approche inductive Le programme KATE [Manago, 1991] est une extension des techniques d'induction utilisées dans ID3 [Quinlan, 1983]. Il autorise le traitement d'un ensemble d'exemples Ω = {w1,...,wn} composé de descriptions complexes d(w) sous forme d’objets de synthèse [Diday, 1987], et comportant des relations entre objets de la description. A chaque d(w) est associée une classe d’identification ci 1 Ce programme informatique constitue notre véritable contribution lors de cette thèse où il s’agissait de répondre à la question sur la robustesse de la consultation. 208 Chapitre 7 (voir la classe soulignée de l'exemple du § 5.6). Comme nous avons émis l’hypothèse que les descriptions sont celles de spécimens (§ 5.1.1), nous assimilerons d(w) à w, c'est-à-dire qu'un cas représente la description d'un individu (qu'il soit prototypique ou unitaire). 7.1.1 Rappel des Notations C = {c1,...,c k} est l'ensemble des k Classes ou chaque ci représente la décision de l'expert pour le cas w. Ω = {w 1,...,w n} est l'ensemble des cas observés à traiter par induction, k < n. Y = Y1 x Y2 x ... x Yp est l'ensemble des variables observées du domaine, i i i Yi = {y 1 ,..,y j ,..,y q } est l'ensemble des variables de Ω i représentant un objet ou une partie pi de la description d'un cas, i i i Qi = {q 1 ,..,q j ,..,q q } est l'ensemble des qualités ou caractères observés de Ω i. Les qualités d’un objet appelées aussi attributs descriptifs en intelligence artificielle sont à distinguer du statut Si de l’objet, c'est-à-dire de la propriété de présense - absence qui conditionne la description de cet objet. N = N 1 x N 2 x ... x observées d’individus. Np est l'ensemble des noms d’objets ou parties Par exemple, Ni = {ni} est l'ensemble singleton comportant le nom de la partie pi de Ω i. Si n i se spécialise en n’i, on a Ni = {n i, n’i} avec n’i < ni. i i i ni Ui = (u1 ,..,u k ,..,u n ) ∈ [Ω i ] est l'ensemble des instances de l'objet i, Mi = N i o Ui est l’ensemble des objets i multi-instanciés, on a Yi = Qi o Mi et Si = {exist} o Mi. Exemples : Q1 = {taille}, N1 = {amphidisques}, U1 = {1, 2} M1 = [amphidisques (1)], M2 = [amphidisques (2)] S1 = { exist [amphidisques (1)] }, Y1 = { taille [amphidisques (1)] } S2 = { exist [amphidisques (2)] }, Y2 = { taille [amphidisques (2)] } Q2 = {forme}, N2 = {corps}, U2 = {1} M2 = {corps}, S2 = { exist (corps)}, Y 2 = { forme (corps)} Le traitement des descriptions biologiques: KATE et CaseWork 209 ij i Vk est l'ensemble des valeurs observées de yj lorsqu'il existe k instances de ij i l'objet i pour le cas w. Si k = 1, on a V k = Vj et Mi = N i. 7.1.2 Principe de la classification par arbre de décision Le but de la méthode de création d'un arbre de décision est d'obtenir une caractérisation des classes décrites dans les exemples en construisant une fonction caractéristique de reconnaissance suffisante des classes entre elles (ce qui correspond à une diagnose, voir figure 2.5). L'idée centrale des algorithmes d'apprentissage par arbre de décision consiste à diviser récursivement les exemples de l'ensemble Ω d'apprentissage à l'aide des attributs jusqu'à obtenir des sous-ensembles d'exemples qui soient suffisamment purs, c'est-à-dire ne contenant (presque) que des exemples appartenant tous à la même classe. Ces sous-ensembles sont alors regroupés au niveau des feuilles ou nœuds terminaux de l'arbre de décision. Une division d'un nœud intermédiaire est déterminée par l'un des attributs qui décrivent les exemples. Cette division est fonction du nombre de valeurs possibles associées à l’attribut. Par exemple, dans le cas d'un attribut booléen, numérique ou testant l'existence d'un objet, la division est binaire. Elle est n_aire en considérant un ensemble fini de valeurs qualitatives nominales ou classifiées. La division peut aussi être vue comme une question à poser à l'utilisateur pour permettre la séparation des exemples en autant de groupes qu'il y a de valeurs possibles attachées à l'attribut. L’autre idée est que cette division soit la plus efficace possible de manière à ce que l’effort de recherche pour trouver la solution soit minimal : on désire poser le minimum de questions à l’utilisateur. Cette idée est néanmoins subordonnée à l’utilisation de l’arbre de décision pour faire de la détermination. Soit T un arbre de décision n_aire construit à partir de Ω et d un nœud intermédiaire de T correspondant à un sous-ensemble E ⊂ Ω, et défini par la division s (figure 7.1). Le nœud d correspond au choix d'un attribut A parmi s, s étant la liste des attributs ordonnés en fonction de leur pouvoir de discrimination. E est l’ensemble des exemples au nœud d, c’est-à-dire l’ensemble qui vérifie la liste des valeurs indexées sur le chemin conduisant de la racine d0 à d (voir § 7.1.4.2.5). 210 Chapitre 7 Ω E Noeud d, s A vn v1 vi E1 Ei En i A = yj , un attribut d’une partie de la description et n descriptions ou valeurs de cet attribut {v1,...,vi,...,vn}, Fig. 7.1 : Schéma d’un nœud de l’arbre T Soit ij v =v i k partie i attribut j instance k Une fonction de partitionnement R induisant une partition sur E est définie de la manière suivante : R : ∀ w ∈ E , A(w) = v i ⇔ w ∈ Ei R (E) = {E1,...,En} est alors une partition de E avec les propriétés suivantes : E = ∪ Ei ∀ i = 1,...,n on a Ei ∩ Ej = ∅ 7.1.3 Algorithme On peut décrire notre algorithme par une procédure générale de construction d'arbre de décision [Vignes, 1992]. Cela consiste à sélectionner un attribut selon un certain critère pour former le premier nœud de l'arbre, puis à créer les différentes branches qui partent de ce nœud, une branche étant étiquetée par l'une des valeurs possibles de l'attribut sélectionné. Ensuite, on répartit la liste des exemples restants en fonction de leur compatibilité avec chaque branche au nœud courant. Enfin, on réitère le processus jusqu'à n'obtenir que des exemples de la même classe qui forment alors une feuille de l'arbre de décision. Le traitement des descriptions biologiques: KATE et CaseWork 211 L'algorithme demande donc trois opérations principales : 1) Tester si un nœud est terminal : si chaque élément de E appartient à la même classe, on construit une feuille de l'arbre libellée par le nom de la classe, 2) Sélectionner la meilleure division pour placer son représentant (A) dans un nœud intermédiaire, 3) Partitionner les exemples restants à un nœud intermédiaire en sous-ensembles disjoints. Une quatrième opération spécifique à KATE vient s'ajouter entre 1) et 2) : 1') Construire l'espace des attributs possibles au nœud d. Soit l'ensemble des exemples restants E et l'ensemble Yd des attributs restants attachés au nœud d : Algorithme : Début : E = Ω, ConstruireArbre (E, Yd) si Critèred'Arrêt (E) alors ConstruireFeuille (E) sinon Yd = ConstruireEspace (E) s = OrdonnerCritères (E, Yd) A = Meilleure_division (E, s) di = CréerNœud (A) partition = R (E) Pour tout Ei ∈ partition CréerBranche (vi) ConstruireArbre ( Ei , Yd ) Fin Pour tout Fin si Fin. 212 Chapitre 7 ConstruireEspace (E) Yd = ∅ Pour tout mi ∈ Mi si ∀ w ∈ E, sinon si sinon Fin si mi ∈ w alors Yd = Yi ∪ Yd ∀ w ∈ E , mi ∉ w alors Yd = ∅ ∪ Yd Yd = Si ∪ Yd Pour tout A ∈ Yd ij ij si Vk ∈ R ou si Vk ∈ N alors T = CalculerSeuil (A, E) Fin Pour tout Fin Pour tout retourner Yd 7.1.4 Description des fonctions principales de l'algorithme 7.1.4.1 OrdonnerCritères (E, Y d) Soit Yd = {A1 ,...,Ap }, l’ensemble des attributs applicables au nœud courant. L’ordonnancement des critères est fondée sur l’application des principes de la théorie de l’information et de l’entropie [Shannon, 1949]. L’entropie de Shannon est une mesure de probabilité sur la difficulté de prévoir laquelle des valeurs possibles d’un attribut est applicable à un nouvel individu choisi au hasard parmi l’ensemble des exemples décrits [Estabrook, 1967]. Elle possède une signification statistique indépendante du contenu du message véhiculé : l'entropie est basée sur la mesure du degré d'incertitude de la réalisation d'évènements aléatoires par rapport à des expériences possédant un nombre k d'issues ayant chacune une certaine probabilité d'apparition [Yaglom A.M. & Yaglom I.M., 1957]. Par exemple, si notre expérience consiste à déterminer la couleur de la première corneille rencontrée, nous pourrons considérer la couleur noire avec une certitude presque entière (bien qu'il existe quelques rares corneilles blanches dans la nature selon les zoologues). Notre incertitude sera plus grande si l'expérience est de déterminer si le premier homme rencontré sera gaucher : le résultat de l'expérience peut être prédit presque sans hésitation, mais les craintes quant à l'exactitude de cette prédiction seront plus fondées que dans le premier cas. Il est sensiblement plus difficile de prédire d'avance le sexe de la première personne que nous rencontrerons. Mais cette expérience possède encore un degré d'indétermination relativement petit en comparaison de la tentative de désigner d'avance le vainqueur d'un tournoi dont 213 Le traitement des descriptions biologiques: KATE et CaseWork les vingts participants nous sont entièrement inconnus ou de donner le numéro du billet de loterie gagnant du gros lot au prochain tirage... Le degré d'incertitude de chaque expérience est déterminé par le nombre k d'issues possibles ainsi que de leurs probabilités d'apparition : elle est notée f(k). Cette fonction est déterminée par les trois propriétés suivantes: 1) Si k = 1, il n'y a aucune incertitude dans ce cas et la mesure doit s'annuler. 2) Lorsque k augmente, la mesure f(k) est une fonction croissante des k issues. 3) Si l'on considère deux expériences indépendantes α et β (avec k issues pour α et l issues pour β), le degré d'incertitude de l'expérience composée αβ est égal à la somme des incertitudes qui caractérisent les expériences α et β: f(kl) = f(k) + f(l). On peut montrer [Guiasu & Theodorescu, 1971] que la seule fonction de la variable k qui vérifie ces trois conditions est la fonction logarithmique : f(k) = log k. Dans les applications, les logarithmes de base 2 sont le plus souvent utilisés, ce qui signifie que l'on prend comme unité de mesure du degré d'incertitude, l'incertitude d'une expérience possédant deux issues également probables. Ce choix n'est pas essentiel : un facteur constant existe entre les différentes bases. Cette mesure est aussi une information sur la capacité d’un attribut à séparer efficacement les exemples. Supposons en effet un attribut ayant 2 valeurs possibles, p1 et p2 sont les proportions d’exemples prenant respectivement les valeurs 1 et 2. Si tous les exemples d’apprentissage prennent la première valeur (p1 = 1 et p2 = 0), alors le fait d’observer l’état 1 n’apporte aucune information supplémentaire pour séparer les exemples. Inversement, si la répartition des exemples selon les valeurs de l’attribut est homogène (p1 = 1/2 et p2 = 1/2 pour l’équi-répartition), l’efficacité de discrimination est maximale. On peut donc associer à chaque attribut A ∈ Yd une entropie Ent(E) qui est la somme des distributions de probabilités des n valeurs de son domaine de définition. Ces probabilités sont calculées en fonction des états que prennent les exemples pour l’attribut A. Pour chaque valeur discrète de A, on définit la fréquence d’occurrence Pi de Ei qui est la probabilité associée à chaque valeur d’attribut pour qu’un exemple w appartenant à E appartienne à Ei : Pi = Card(Ei ) est donc la probabilité de choisir un exemple ayant l’état i de A. Card(E) n L’entropie est alors calculée selon la formule : Ent(E) = − ∑ Pi × log 2 P i i =1 214 Chapitre 7 ou n est le nombre de valeurs possibles de A. Par exemple, pour l’attribut A = C (la classe) au nœud courant, on peut calculer la proportion d’exemples de E qui sont de la classe ci et l’entropie de C sera alors la quantité d’information nécessaire pour déterminer les classes dans le sous-ensemble E. 7.1.4.2 Meilleure_division (E, s) Par principe, l’entropie est mesurée sur un attribut que l’on désire apprendre (C par exemple), en fabriquant une caractérisation de cet attribut à l’aide d’autres attributs. C’est alors que se justifie la mesure du gain d’information : Le Gain d’information est la mesure de l’accroissement d’ordre sur C qu’introduit le choix d’un autre attribut A : plus ce gain est élevé, plus la répartition des exemples pour chaque classe est homogène (le meilleur gain est celui qui représente l’équi-répartition des exemples). C’est le gain calculé le plus élevé qui permet de choisir le meilleur attribut permettant d’apprendre C, qui permet donc la meilleure division au nœud courant. La formule du gain d’information est la suivante : Gain(A, E) = Ent(E) − Ent(A, E) n avec Ent(A, E) = ∑ Pi × Ent(E i / C) étant l’entropie moyenne pondérée des i=1 informations conditionnelles des n valeurs possibles de A. n En effet, Ent(Ei / C) = − ∑ pi × log 2 pi est l’entropie conditionnelle calculée i =1 Card(E i ∩ Cj ) est la probabilité Card(E) conditionnelle associée à A (probabilité de choisir un objet ayant l’état i de A et l’état j de C). pour chaque valeur de A avec pi = Remarque : On a pu constater dans différentes applications médicales [Kononenko et al, 1984] que la mesure du gain d'information favorise les attributs ayant un domaine de définition avec beaucoup de valeurs. Quinlan (1986) a introduit la notion de gain d'information relatif pour compenser ce biais en divisant le gain d'information précédent par l'information contenue dans le choix de l'attribut A : IV(A) n IV(A) = − ∑ Pi × log 2 P i i =1 Gainℜ(A,E) = Ent(E) − Ent(A, E) IV(A) Le traitement des descriptions biologiques: KATE et CaseWork 215 Dans notre algorithme, A = meilleure_division (E, s) correspond au choix de l’attribut de s possédant le gain d’information relatif le plus élevé pour séparer au mieux les exemples en fonction du but à atteindre qui est de faire de la discrimination sur l’attribut C. 7.1.4.3 Critèred'Arrêt (E) Il existe plusieurs moyens d'arrêter la construction d'un arbre de décision : 1) ∀ w ∈ E , Classe(w) = c i. C'est la condition d'arrêt la plus naturelle, c'est-à-dire lorsque tous les cas d'un nœud ont la même modalité ci pour la variable décision. 2) Card (E) > seuil donné. Un inconvénient du premier critère d'arrêt est qu'il conduit à une séparation totale des classes, ce qui fait que certaines branches terminales ne possèdent que très peu d'exemples. Donc, séparer les exemples lorsqu'il n'en reste que 2 ou 3 n'est pas significatif d'un point de vue statistique : cela relève le plus souvent du hasard et ne contribue pas à une véritable connaissance du domaine [Crémilleux, 1991]. C'est pourquoi certains algorithmes imposent un nombre minimal d'exemples pour continuer à construire le sous-arbre (segmenter le nœud courant) comme le fait le système CART [Breiman et al., 1984] en attribuant a priori la valeur 5 à ce seuil. 3) Card (E) / Card (Ω) > seuil donné. Au lieu d'appliquer le critère absolu du 2), on peut fixer un seuil relatif dépendant du nombre total de cas [Cestnik, 1987]. 4) Card ({ w ∈ E / Classe(w) = ci }) > seuil donné. Au lieu de comptabiliser les cas indépendamment de la classe auxquels ils ont été attribués, on peut décider d'arrêter la construction de l'arbre lorsque le nombre de cas d'une même classe dépasse un certain seuil. 5) La profondeur de l'arbre est limitée à un seuil donné. Soit D = {di}, l'ensemble des nœuds de l'arbre T, soit d0 un nœud particulier appelé la racine de l'arbre. 216 Chapitre 7 Tout nœud di autre que d0 est relié par un arc à un autre nœud di' appelé le fils de di. Si d i' est fils de di alors di est appelé père de di' . Cet arc est une branche avec un sommet di' et une extrémité di. Elle contient la valeur vi à observer pour déterminer l’individu (cf. figure 7.1). Dt = {d t} est l'ensemble des nœuds terminaux ou feuilles de l'arbre T, une feuille est un nœud dk = dt qui n'a pas de fils. Soit la relation “>” (“père de”). Supposons que d 1, d 2, ..., d k soit une séquence de nœuds de T telle que d1 > d 2 > ... > d k-1 > d k. Cette séquence est appelée un chemin depuis d 1 jusqu'à dk dans T. La longueur du chemin est k - 1. La profondeur de l'arbre T est la longueur du chemin maximal menant de d0 à dt. 6) Tester si toutes les variables candidates à un nœud de l’arbre sont jugées “indépendantes” de la variable décision. Pour ce faire, on calcule le test du χ 2 pour chaque variable à partir du tableau de contingence défini par celle-ci et la variable décision. Puis on compare ce calcul avec le gain d'information. Ce dernier tend vers un χ 2 lorsque le nombre de cas au nœud courant est élevé. Remarque : ce dernier point n'est souvent pas vérifié dans nos application pour la significativité du test, ce qui est un inconvénient pour arrêter la construction de l'arbre de manière fiable. Ce test est à considérer pour les nœuds terminaux dont le nombre d'exemples est élevé ainsi que le nombre de modalités de la variable décision [Crémilleux, 1991]. 7) Il ne reste plus aucune variable candidate pour segmenter le nœud. En effet, à chaque fois qu'une variable est choisie comme test pour l'arbre de décision, elle est éliminée de la liste des variables candidates pour les nœuds suivants. Cette règle ne s'applique pas pour les variables numériques qui peuvent être réutilisées plusieurs fois (voir § 7.1.4.4). De même, les variables classifiées présentent des valeurs différentes si elles ont déjà été utilisées une fois pour la segmentation : il faut pour cela exploiter l'ordre introduit par les nœuds intermédiaires de la taxonomie des valeurs possibles : la variable est examinée paliers par paliers jusqu'aux feuilles terminales avant d'être éliminée de la liste des variables candidates. Le traitement des descriptions biologiques: KATE et CaseWork 217 7.1.4.4 ConstruireFeuille (E) Chaque feuille construite est libellée par le nom de la classe correspondante. Si tous les exemples à un nœud dt (feuille ou nœud terminal) n'ont pas la même valeur de classe, on calcule la “probabilité” Pd associée à chaque classe ck présente en dt : Card(Ed ) Pd = Card (E) A chaque libellé de classe étiquetant le nœud terminal est associé la probabilité calculée Pd. Cette configuration correspond à une ambiguïté ou un “clash” (voir § 1.6.1.3). 7.1.4.5 CalculerSeuil (A,E) Cette fonction ne s'applique qu'aux attributs numériques (à valeurs ordonnées). Tout d'abord, l'ensemble des exemples E est trié selon les valeurs croissantes prises pour l'attribut A considéré : T1 ex2 T2 ex4 T3 ex3 R ou N ex1 L'ensemble des valeurs de A prises par E est fini et noté {v1 ,...,vn }. Chaque point entre deux paires d'exemples dans la liste triée est alors calculé pour former un seuil potentiel de discrimination. Etant données n valeurs distinctes de A prises par E, il y a (n - 1) évaluations possibles, ce qui donne un ensemble de Tn-1 seuils potentiels avec Ti = vi + v (i + 1) . 2 A chaque évaluation de Ti , les exemples E sont séparés en deux parties E1 et E2 (binarisation de l'attribut) et on calcule comme avant le gain d'information de chaque seuil potentiel Ti, le test étant alors booléen : A(E1) ≤ Ti et A(E2) > Ti. Après les (n - 1) évaluations, on choisit le seuil T qui possède le meilleur gain d'information. S'il existe des intervalles dans l'ensemble des valeurs prises par A, on applique le même principe d'ordonnancement des exemples selon l'axe des entiers ou des réels. Les seuils potentiels sont les bornes des intervalles de chaque exemple. S'il y a n valeurs (intervalles) pour tous les exemples, cela donne 2n - 2 seuils potentiels à calculer (en ôtant les bornes les plus extrèmes) : 218 Chapitre 7 T1 T3 T4 ex2 ex 1 T6 R ou N ex 3 T2 T5 Néanmoins, pour le calcul du gain d'information de chaque seuil, le problème est ici plus délicat du fait du recouvrement des intervalles entre les différents exemples : le même exemple peut être comptabilisé deux fois pour un seuil donné : A(Ex) ≤ T i et A(Ex) ≥ T i. Mais cela ne gêne pas le calcul du gain d'information lorsque les modalités ne sont pas disjointes (un individu peut prendre plus d'une modalité pour la variable A), de même que lorsqu'elles ne sont pas exhaustives (un individu peut ne pas prendre une modalité de la variable, ce qui est le cas de la réponse «inconnu»). En effet, que ce soit pour une variable numérique où le test est binarisé (n = 2 branches ou valeurs possibles) ou pour une variable nominale n_aire, si la valeur de A est inconnue pour un exemple, alors toutes les valeurs sont possibles : l'exemple est propagé sur les n branches. Par contre, si l'exemple possède plusieurs valeurs résultant de l'imprécision des descriptions observées de l'observateur (voir § 3.6.10.2), il est propagé sur ces branches uniquement. Afin que la mesure du gain d'information reste consistante, la taille du sousensemble E au nœud d est artificiellement modifiée : Card (E) = Card (E) + (p - 1), ou p est le nombre de branches ou l'exemple a été propagé. Remarques : Dans [Fayyad & Irani, 1992], il est montré qu'il est inutile de calculer le gain d'information des (n - 1) points possibles de la partition engendrée par les n valeurs d'un attribut numérique : il suffit de ne considérer que les seuils qui séparent deux classes différentes après avoir trié les exemples par ordre croissant. Cette fonctionnalité n'est pas encore implantée dans l'algorithme. Par contre, un attribut de type entier ou réel, s'il est choisi à un nœud de l'arbre, peut être réutilisé dans la liste des tests possibles pour engendrer le sous-arbre du nœud (contrairement aux autres tests non numériques qui sont éliminés de la liste). Les valeurs possibles de ce nouveau test ont alors un sous espace d'observation O' restreint et déterminé par le calcul du seuil du test initial. Pour une étude de la complexité globale de l'algorithme, on peut se reporter à [Manago, 1988], [Crémilleux, 1991]. 219 Le traitement des descriptions biologiques: KATE et CaseWork 7.2 De l'induction au raisonnement par cas Depuis une dizaine d'années, la technologie de l'induction a été utilisée pour faciliter la mise en œuvre d'un projet de système expert. Au lieu de demander à un expert humain de fournir lui-même des règles logiques qui modélisent son savoir-faire, on lui demande de constituer une base d'exemples représentative de son domaine. Les connaissances nécessaires au système expert sont ensuite extraites par induction à partir des exemples. Cette base de connaissances se présente sous la forme d'un arbre de décision ou de règles. Considérons une base d'exemples pour notre application de détermination d'éponges marines (figure 7.2) : cas Ex1 Ex2 Ex3 ... Classe Forme(corps) Extrémité(dents) Paradisconema Ellipsoïde Elargies Coscinonema Conique En-lancette ... Corynonema Ellipsoïde En-lancette ... ... ... ... ... ... ... Fig. 7.2 : Exemples sous la forme d'un tableau de données Le but est de reconnaître efficacement une classe à partir de ses caractéristiques. L'algorithme d'induction KATE permet de construire automatiquement un arbre de classification tel celui de la figure 7.3. Cet arbre de décision peut dans un deuxième temps être exploité pour déterminer un nouveau cas : les nœuds intermédiaires de l'arbre correspondent à des questions posées à l'utilisateur, les feuilles ou nœuds terminaux correspondent à la conclusion donnée par le système expert. extremité(dents) en-lancette élargies forme(corps) ellipsoide Corynonema: ex3 Paradisconema: ex1 conique Coscinonema : ex2 Fig. 7.3 : Un arbre de classification (ou de décision) 220 Chapitre 7 7.2.1 Formalisation de la procédure de détermination Une détermination à partir d’un arbre de décision se fait en débutant à la racine de l’arbre T, que nous appellerons d0. A chaque nœud de T, se trouve un critère de détermination di = (Ai, Vi, E) : - Ai est le nom d’un attribut (Ai [ Yi ∪ Si), - Vi est l’ensemble des valeurs observables de Ai, Vi = {v1,...,vi,...,vn}, - E est l’ensemble des exemples w restant au nœud d. Le cas w à déterminer est apparié à di = d 0, puis en fonction de la (ou des) valeur(s) qu’il prend pour l’attribut Ai, le (ou les) nœud(s) fils di’ devien(nen)t candidat(s) pour l’(les) appariement(s) suivant(s). La procédure s’arrête lorsque l’on atteint une (les) feuille(s) libellée(s) par un nom de concept. Ce nom devient le résultat de la détermination. Lorsque plusieurs feuilles sont atteintes, le résultat est une combinaison de concepts avec des coefficients de vraisemblance associés à chacun d’eux, et calculés en fonction du nombre d’exemples indexés à chacune des feuilles. Soit D = Dn ∪ Dt = {d i}, l’ensemble des nœuds de T. Dn = {d n} est l’ensemble des nœuds intermédiaires, Dt = {d t} est l’ensemble des nœuds terminaux. Le parcours de l’arbre pour la détermination est exprimé par l’algorithme récursif suivant : Algorithme : Début : di = d0, Apparier (w, di) si di ∈ Dt alors Ai (w) = ci ⇒ w ∈ {ci} sinon Pour tout vi ∈ di si yi (w) = vi alors Apparier (w, di’) Fin pour tout Fin si Fin. 7.2.2 Limites de l'approche inductive Le traitement des descriptions biologiques: KATE et CaseWork 221 7.2.2.1 Apprentissage automatique = perte d'information Toutes les techniques issues de l'apprentissage, qu'elles soient empiriques ou analytiques, présentent un certain nombre de limites inhérentes à l'approche. Pour l'induction à partir d'exemples, c'est-à-dire à partir de la représentation en extension des classes à apprendre (des descriptions de spécimens), l'algorithme va dériver une représentation en intension (une caractérisation) des classes par des concepts. Il en résulte des définitions différentielles (ou diagnoses) permettant de délimiter les concepts les uns des autres. Cette représentation en intension s'accompagne d'une généralisation des exemples, de façon à prendre en compte des individus autres que les exemples eux-mêmes. Les généralisations peuvent être obtenues à l'aide de diverses techniques mais quelle que soit celle choisie, on va perdre de l'information contenue dans les exemples. C'est à la fois l'avantage de l'approche et son inconvénient car on risque d'éliminer une information utile. Tout l'art consiste à déterminer quelles sont les informations utiles qui doivent apparaître dans la définition en intension des concepts. Malheureusement, pour certaines applications (dont celles en biologie), il est impossible de prédire à l'avance quelles sont les informations importantes qu'il faut conserver. 7.2.2.2 Gestion de l'inconnu en phase de consultation Considérons l'arbre d'identification de la figure 7.3. En phase de consultation, le système expert de reconnaissance d'éponges va d'abord demander à l'utilisateur comment est l' “extrémité des dents”. Supposons que ce dernier ne soit pas en mesure de répondre (la réponse est «inconnu»). L'inférence suit les deux branches “en-lancette” et “élargies” puis combine les réponses aux feuilles de l'arbre. Dans la branche “élargies”, nous obtenons un diagnostic partiel (Paradisconema avec 1 exemple). Dans la branche “en-lancette”, le système expert demande ensuite quelle est la forme du corps. L'utilisateur répond “conique”. Le système expert conclut alors qu'il s'agit de Coscinonema (0.5) ou de Paradisconema (0.5), ce qui dénote que ces deux conclusions sont également possibles. Ce diagnostic incertain est obtenu en combinant les exemples aux deux feuilles de l'arbre que nous avons atteint au cours de la consultation comme indiqué dans la figure 7.4 : 222 Chapitre 7 extremité(dents) = ??? en-lancette élargies forme(corps) = conique ellipsoide Corynonema: ex3 Paradisconema: ex1 conique Coscinonema : ex2 Fig. 7.4 : Consultation de l'arbre de décision de la figure 7.3 Pourtant lorsque nous regardons la forme du corps de ex1, nous nous apercevons que celle-ci est “ellipsoide”. Il y a donc une incohérence avec les informations fournies par l'utilisateur puisque le cas courant a la forme du corps “conique”. Le cas courant ne peut donc pas être une Paradisconema. Le système expert n'a pas fait cette conclusion car l'information sur la forme du corps de ex1, présente dans les données originales, a été délaissée suite à la phase d'induction. Ce problème se retrouve dans tout raisonnement à partir de connaissances générales (acquises par apprentissage ou non). On pourrait objecter que lorsque les exemples d'apprentissage présentent des configurations de valeurs inconnues analogues à celles rencontrées durant la consultation, nous obtiendrions le bon résultat. En fait, pour de nombreuses applications du monde réel, il serait absurde de constituer une base d'exemples comprenant toutes les configurations d'inconnu possibles. Il semble aussi fallacieux de présenter comme un enrichissement de la connaissance l'accumulation de non-information ! 7.2.2.3 Rigidité de la consultation interactive Mis à part le problème des réponses inconnues, le raisonnement à partir d'arbres de décision présente d'autres limites. Le raisonnement est trop dirigiste et l'utilisateur est contraint de répondre aux questions dans un ordre pré-déterminé et rigide. Si ce mode de consultation est adapté pour des utilisateurs naïfs, il ne l'est plus lorsque l'utilisateur final est un expert du domaine. En effet, l'expert se lasse vite de ce jeu des questions-réponses alors qu'il estime pouvoir fournir directement l'information discriminante. Il est éventuellement prêt à répondre à 2 ou 3 questions complémentaires si cette information est insuffisante pour conclure, mais il veut rester maître de la consultation et entend suivre son propre raisonnement plutôt que la progression “artificielle” de la déduction. De plus, le problème de tous les systèmes experts à base de règles de production (ou d'un arbre de décision) est qu'ils sont incapables de court-circuiter leur mécanismes habituels devant un cas particulier alors que des experts humains prennent parfois une décision brusque simplement parce que par exemple la Le traitement des descriptions biologiques: KATE et CaseWork 223 situation présente leur rappelle une situation grave analogue rencontrée dans le passé : à ce moment, ils n'ont pas besoin de cerner progressivement une hypothèse explicative comme ils le font d'habitude. La remémoration des faits fondée sur des ressemblances frappantes ou airs de famille [Wittgenstein, 1953] ayant une importance primordiale dans l'intellect humain, il nous a semblé intéresssant de pouvoir étudier ce type de raisonnement analogique en phase d'identification d'une nouvelle observation. 7.3 Le raisonnement par cas 7.3.1 Généralités Le raisonnement par cas (“case-based reasoning”) est le nom donné aux techniques de résolution de problèmes qui font appel aux expériences passées plutôt qu'à un corpus de connaissances synthétisées [Bareiss, 1989]. La distinction essentielle entre le raisonnement par cas et d'autres méthodes automatiques de raisonnement est qu'un nouveau problème est résolu en reconnaissant sa similitude avec des problèmes résolus précédemment, puis en transférant leurs solutions. Certains auteurs affirment que le raisonnement par cas est une forme de raisonnement analogique qui se place dans le cadre strict d’un domaine. Les recherches analogiques se situent dans le contexte plus global de trouver les analogies entre différents domaines [Burstein, 1989], [Hall, 1989]. D'autres auteurs définissent plus formellement le raisonnement par analogie comme étant un processus de démonstration du quatrième terme à partir des trois premiers [Bourrelly & Chouraqui, 1985]. Il enchaîne deux phases, comparaison et transfert, prenant appui sur la reconnaissance implicite d'une dépendance entre les éléments constituant la seconde paire de l'analogie (figure 7.5) : Comparaison Dépendance A = B C ?D Transfert Fig. 7.5 : L'analogie selon Bourrelly et Chouraqui (1985) 224 Chapitre 7 L'exemple de la figure 7.6 permet d'illustrer ce point de vue [Vogel, 1988]. Les symptômes de l'incident à diagnostiquer sont mis en rapport avec des symptômes déjà rencontrés pour permettre le transfert du diagnostic correspondant sur l'incident actuel : Comparaison symptômes Dépendance diagnostic = symptômes actuels ?diagnostic actuel Transfert Fig. 7.6 : L'explication sur anomalies connues Enfin, d’autres auteurs plus synthétiques [Aamodt & Plaza, 1994] englobent dans le terme “raisonnement par cas” l’ensemble des méthodes de raisonnement fondées sur les exemples, les instances, la mémoire, les cas, l’analogie (exemplar-based, instance-based, memory-based, case-based, analogy-based reasoning). Toutes ces méthodes partagent les mêmes traitements qui sont les tâches à réaliser pour obtenir un système de raisonnement par cas : 1) Rechercher le(s) cas le(s) plus similaire(s), 2) Réutiliser l’information et la connaissance du (des) cas pour résoudre le problème, 3) Réviser la solution proposée, 4) Retenir la partie de cette expérience qui pourrait être utile à la résolution d’un nouveau problème. Les expériences passées (les “cas”) qui sont utilisées au cours du raisonnement peuvent avoir été acquises par le système ou avoir été fournies au départ. Par contraste, les autres formes de résolution de problèmes, comme l'induction ou le raisonnement à base de règles, dérivent la solution à partir d'une caractérisation générale d'un groupe de problèmes ou à partir d'un ensemble de connaissances encore plus générales. Les travaux de recherches menés au cours de ces dernières années ont montré que différentes classes de problèmes peuvent être traitées à l'aide de techniques de raisonnement par cas. Outre les problèmes de classification (voir en particulier [Kolodner J.R & Kolodner R.M., 1985], [Kibler & Aha, 1987], le raisonnement par cas a été utilisé pour des problèmes de planification [Kolodner, 1987], [Simpson, 1985], de raisonnement légal à partir de la jurisprudence [Ashley, 1987], [Bain, 1986], pour une gestion dynamique de la mémoire [Kolodner, 1983a], [Kolodner, 1983b], la reconnaissance de la parole [Bradshaw, 1987], la prononciation de mots [Stanfill & Waltz, 1986], [Lehnert, Le traitement des descriptions biologiques: KATE et CaseWork 225 1987], la détermination des structures secondaires de protéines [Zhang et al., (à paraître)], etc.. 7.3.2 Notre procédure de raisonnement par cas : CaseWork En nous plaçant dans le cadre de la définition sous forme de tâches du raisonnement par cas [Aamodt & Plaza, 1994], CaseWork effectue les deux premiers traitements, c’est-à-dire Rechercher et Réutiliser. Les deux autres tâches (Réviser et Retenir) font partie de la procédure de validation qui est assurée par l’expert dans notre méthodologie d’acquisition des connaissances (voir § 2.4). Notons aussi que la réutilisation n’est qu’une copie du résultat (le nom du concept associé à l’attribut Classe du cas similaire) et qu’il n’y a pas d’adaptation de la solution proposée par transformation ou dérivation, telle qu’elle est expliquée dans [Carbonell, 1986]. Pour notre exemple, au lieu de raisonner sur le cas courant avec un arbre de décision, le système part directement de la base de cas de références. Nous utilisons une technique de base analogue à celle utilisée dans le système d'induction KATE (optimisation du gain d'information) mais, au lieu d'engendrer complètement une structure statique d'arbre de décision puis d'oublier les exemples d'apprentissage, nous raisonnons directement sur les exemples pour engendrer dynamiquement un chemin dans un arbre (fictif et implicite) qui correspond au cas courant. Les autres branches de l'arbre, qui n'ont pas d'intérêt pour le cas courant, ne sont pas développées. Ce module de raisonnement par cas permet de mieux traiter le problème des réponses inconnues en phase de consultation et d'avoir un outil flexible totalement guidé par l'utilisateur. En effet, en phase de construction de l'arbre de décision, les critères sont ordonnés à chaque nœud en fonction de leur pouvoir discriminant comme on peut le voir sur la figure 7.7. En phase d'induction, à chaque nœud de l'arbre, seul le premier critère (celui qui a le meilleur gain) est utilisé pour construire l'arbre globalement optimal en terme d'efficacité (cet arbre cache la forêt des autres arbres possibles !). Pour la figure ci-dessous, c'est la forme du corps qui est choisie à la racine pour générer l'arbre de décision (le gain d'information est égal à 1). La forme homogène de l'arbre (bien équilibré) traduit cette efficacité. Pour le raisonnement par cas, aucune structure d'arbre n'est générée. Il suffit que l'utilisateur réponde «inconnu» à un nœud correspondant à la question associée au premier critère pour que le système remplace ce critère non renseigné par son successeur ayant un pouvoir de discrimination juste inférieur, et ainsi de suite jusqu'à épuisement de la liste des critères si l'utilisateur n'a aucune information à apporter en réponse aux questions posées (ce qui n'est pas réaliste 226 Chapitre 7 !)2. Pour la figure 7.7, si l'utilisateur ne connait pas la forme du corps de l'éponge, le système lui posera la question sur la longueur du rayon distal des pinules dermaux. Fig. 7.7 : Visualisation des critères ordonnés à la racine de l'arbre de décision (<top>) Pour notre exemple simple, cela donne la figure 7.8 suivante : extremité(dents) = ??? forme(corps) = conique ellipsoide Corynonema: ex3 Paradisconema: ex1 conique Coscinonema : ex2 Fig. 7.8 : Une procédure de raisonnement par cas 2 La procédure de remplacement se poursuit jusqu'à ce que l'on atteigne un critère avec un gain d'information égal à zéro. Si c'est le cas, chaque branche correspondant à la liste des valeurs possibles de cet attribut est parcourue en récupérant les exemples conformes à la valeur. Le gain d'information est réévalué sur chaque sous-arbre et les conclusions apportées sont pondérées en fonction de leur fréquence d'apparition et du nombre d'exemples correspondants. Le traitement des descriptions biologiques: KATE et CaseWork 227 Le fait que l'utilisateur ne sache pas répondre à la question sur l'extrémité des dents provoque le remplacement de ce critère par le second le plus discriminant : on arrive ainsi à déterminer totalement le nouvel individu en utilisant toute l'information disponible dans la base de cas. En fait, les deux critères “extrémité(dents)” et “forme(corps)”, au vu du tableau de la figure 7.2 (et non de la figure 7.5), ont un gain d'information identique : ils discriminent les exemples avec la même probabilité. Théoriquement, rien ne justifiait donc le choix du premier critère pour la consultation au lieu du second car la mesure du gain d'information ne tient pas compte du contenu du message véhiculé par le critère. Néanmoins, il est tout à fait possible de tenir compte d'un ordre sur les critères à utiliser en fonction d'une sémantique donnée lorsque ceux-ci ont le même pouvoir de discrimination : par exemple, l'expert peut indiquer dans le modèle descriptif une priorité d'utilisation liée à la facilité d'observer l'attribut (il est plus facile d'observer visuellement la forme du corps que l'extrémité des dents au microscope). Cette connaissance explicite supplémentaire peut donc être mise à contribution en phase de détermination pour améliorer la robustesse de la consultation. 7.3.3 Formalisation La procédure de raisonnement par cas que nous avons développée dans CaseWork peut être décrite par l’algorithme suivant. Il explicite les deux tâches qui permettent de retrouver les cas “similaires” : Rechercher et Réutiliser. La méthode utilise toujours le gain d’information comme mesure de discrimination. Aucun nœud n’est construit, les critères choisis ne servent qu’à indexer les cas : Algorithme : Début : E = Ω, Rechercher (w, E, Y) si Critèred'Arrêt (E) alors w ∈ {ci} ; Réutiliser sinon Y = ConstruireEspace (E) ; Récupèrer les attributs pertinents s = OrdonnerCritères (E, Y) ; Ordonner les attributs Ei = Sélectionner (w, s, E) Rechercher (w, Ei, Y) Fin si Fin. 228 Chapitre 7 Sélectionner (w, s, E) A = Meilleure_division (E, s) si GainInformation (A) = 0 alors partition = R (E) Pour tout Ei ∈ partition Rechercher (w, Ei, Y) Fin Pour tout Fin si si A (w) = ∅ alors Sélectionner (w, s\A, E) Fin si Pour tout wi ∈ E Ei = {w i / A (wi) = yi (w) = v i} Fin pour tout ; “\” est le symbole d’exception ; comparer les anciens cas avec celui ; à identifier et les sélectionner retourner Ei 7.3.4 Comparaison des deux approches L'approche “raisonnement par cas” pour la détermination correspond à une méthode d'identification par comparaison des descriptions. Il n'y a pas généralisation des exemples sous la forme d'un arbre de décision. Elle s'oppose en cela à l'approche déductive d'utilisation d'un arbre sous la forme d'une clé d'identification qui représente une classification artificielle préexistante. Notre procédure de raisonnement par cas peut être comprise comme une recherche multi-accès orientée et séquentielle mono-critère : 1) Elle est orientée car la recherche est guidée par la quantité d'information véhiculée par chaque attribut, de manière à aboutir à une identification rapide. Elle est multi-accès du fait des possibilités de remplacement d'un critère par un autre lorsque l'utilisateur ne sait pas répondre au premier. 2) Elle est séquentielle et mono-critère du fait que la recherche ne se base pas sur une combinaison de critères associés (disjonctions de critères en parallèle) à un moment donné de la procédure de consultation, mais sur une séquence ordonnée dans le temps d'un seul critère à la fois (conjonction de critères en série). Le traitement des descriptions biologiques: KATE et CaseWork 229 La comparaison basée sur le choix d'un seul critère à un moment donné est analytique. Elle est aussi qualifiée de monothétique [Pankhurst, 1991] ou mono dimensionnelle [Fenelon, 1981]. La mesure d'entropie utilise la liste des attributs disponibles à chaque étape pour évaluer leurs différents pouvoirs de séparation des exemples conditionnellement aux différentes classes présentes. De ce fait, on peut qualifier le gain d'information comme une mesure de discrimination inter-classe. Dans cette méthode, on s'intéresse à la distribution relative des exemples par rapport aux valeurs possibles de chaque attribut, c'està-dire que l'on compte les exemples par rapport aux attributs. Ici, ce sont les attributs qui sont comparés entre eux, ce qui revient à travailler sur la définition en intension des concepts. D'autres procédures de détermination comparent les exemples entre eux, c'est-àdire à partir de la représentation en extension des classes. Ces méthodes sont polythétiques car elles étudient toutes les configurations possibles d'appariement des exemples à chaque étape de la division. Ce sont des méthodes synthétiques d'analyse multi-dimensionnelle des données [Bertier & Bouroche, 1981]. Elles se basent sur une mesure de proximité entre les exemples appartenant à une même classe comme par exemple pour la recherche des k plus proches voisin en analyse discriminante [Celeux et al., 1989]. Ces mesures de ressemblance tenant compte de l'homogénéité des descriptions à l'intérieur d'une même classe sont des mesures intra-classe. Une distance est calculée pour évaluer la similarité entre les exemples qui sont appariés deux à deux. Cette approche tient compte de tous les attributs à la fois parce qu'elle compte les identités et les différences au niveau des valeurs prises par les attributs par rapport aux exemples : il s'agit d'un comptage des attributs par rapport aux exemples. L'avantage d'une procédure de raisonnement par cas par rapport à une procédure de détermination déductive (ou associative) est son incrémentalité. Casework prend en compte tous les cas qui sont actuellement dans la base. Contrairement à KATE, il n'est plus nécessaire de passer par une phase de mise à jour et d'engendrer un nouvel arbre lorsqu'on rajoute un nouvel exemple. Sa difficulté est que justement, elle contraint à travailler sur la quasi-totalité de l'information disponible, ce qui peut s'avérer d'une lourdeur insurmontable pour les méthodes polythétiques. En ce qui concerne notre méthode monothétique, nous n'avons jusqu'à présent pas rencontré de problèmes d'efficacité même pour des applications volumineuses dans d'autres domaines que la biologie. Le nombre de cas considérés se réduit très rapidement au fur et à mesure des questions et le temps de calcul du meilleur critère, compte tenu de l'efficacité de la méthode, n’est pas une contrainte d’utilisation. Donc, le raisonnement par cas peut se substituer avantageusement à l'induction pour la phase de consultation interactive. En revanche, il ne permet pas 230 Chapitre 7 d'acquérir des connaissances explicites sur le domaine à partir de la base de cas. Le processus inductif extrait des connaissances à partir des données d'apprentissage sous la forme d'un arbre de décision ou d'une base de règles. Ces connaissances peuvent être exploitées d'une part pour mieux comprendre le domaine d'application, d'autre part pour déterminer si le domaine a été bien formalisé. La présence de conclusions incertaines aux feuilles de l'arbre peut indiquer que le domaine a été mal défini et qu'il faut rajouter de nouveaux critères pour décrire les données. Les autres avantages respectifs des deux approches sont décrits dans [Manago et al., 1993] (voir annexe 6). Les deux technologies de l'induction et du raisonnement par cas sont donc complémentaires. L'induction permet d'acquérir et de valider une base de connaissances. Le raisonnement par cas permet de maintenir l'application et améliore la qualité des consultations. Ces deux technologies sont en cours d’intégration dans le cadre du projet européen INRECA en collaboration avec Irish Medical System (Irelande), tecInno et l’Université de Kaiserslautern (Allemagne). La combinaison des deux approches permettra de mieux répondre aux besoins des utilisateurs en améliorant la robustesse de la détermination. CONCLUSION 8.1 Résultats Dans cette thèse, nous avons mis au point une méthode opérationnelle d'acquisition des connaissances pour les domaines biologiques. Cette méthode est constituée d'une chaîne en trois parties : acquisition de l'observable avec élaboration d'un modèle descriptif, acquisition de l'observé (les cas) à l'aide d'un questionnaire interactif, puis traitement de ces connaissances (observable et observé) à des fins de classification et/ou de détermination. Les outils permettant de créer le modèle et le questionnaire ont été conçus pendant cette thèse (HyperQuest), ainsi que le module de raisonnement par cas (CaseWork) pour l'objectif de détermination. Pour la classification, nous sommes partis de travaux sur le logiciel KATE [Manago, 1991]. Afin de mettre au point notre méthode, nous nous sommes appuyés sur une application concrète au Muséum National d'Histoire Naturelle de Paris et sur la disponibilité d'un expert du domaine des éponges marines. Au départ de ce travail, notre objectif était d'obtenir des résultats de consultation robustes face à un utilisateur donnant des réponses «inconnu» aux questions posées par le système expert pour déterminer un nouvel individu. Une méthode de raisonnement par cas, expliquée au chapitre 7, permet de pallier ce type de “bruit” dans la phase de détermination. Mais nous savions aussi par d’autres expériences menées à l’INRA en pathologie végétale que la robustesse de la consultation dépendait de la qualité des descriptions, c’est-à-dire de la capacité de l’utilisateur à “savoir décrire” à l’aide d’un questionnaire. De même, cette exigence de qualité des descriptions est primordiale pour pouvoir construire des classifications artificielles à partir des exemples. Or, avant de “savoir décrire”, il faut “savoir observer” : le questionnaire devait donc avoir le rôle de guide d’observation afin d’obtenir des descriptions robustes. La conception d’un guide demande la formalisation d’un bon modèle de description sur lequel on peut ensuite bâtir un questionnaire. 232 Chapitre 8 Nous avons alors plutôt accentué notre effort sur la partie “modélisation” des connaissances implicites de l’expert, c’est-à-dire l’observable en amont de la phase de traitement : il s'agit non pas de modéliser le raisonnement de l'expert, mais plutôt son “savoir observer”. Nous avons donc conçu HyperQuest pour donner la possibilité à l'expert d'expliciter son propre modèle d’observation. Les connaissances de bon sens lui apparaissent alors sous forme graphique et structurée et donnent une vision réelle des trois dimensions des descripteurs : objets, attributs et valeurs. Avant de constituer un modèle descriptif, l'expert n'est pas toujours conscient de sa propre manière d'observer. Concrétiser un modèle d'observation sur un écran d’ordinateur lui renvoie l’image présente de ses connaissances sur son domaine. Cette matérialisation prend deux formes : 1) La première, liée à l’observable, lui montre les relations qu’entretiennent les objets entre eux dans des arbres de composition et de spécialisation : c’est une vue globale de son propre modèle de description qu'il ne faut pas confondre avec l'arbre de décision issu de la classification. Nous avons pu dégager ainsi un certain nombre de mécanismes d'observation que l'on retrouve dans la littérature en systématique (chapitre 4) et qui constituent la trame d'un véritable guide de description. L'outil permettant de créer et de modifier interactivement ce modèle descriptif ainsi que de le visualiser graphiquement a été développé à partir de la découverte de ces mécanismes. 2) L’autre, liée à l’observé, fait plonger l’expert au niveau des descriptions individuelles grâce au questionnaire instanciant son modèle d’observation. Nous avons montré l'importance de reproduire des descriptions naturelles, c'est-à-dire fondées sur des spécimens et non pas sur des concepts. L'objectif au Muséum est de multiplier le nombre de descriptions par classe pour exprimer sa diversité plutôt que de favoriser les regroupements de descriptions au sein d'une seule définition de concept (ce qui débouche sur des choses non observables, trop larges par rapport à la réalité). Cela permet de plus de valoriser les collections, en déléguant le travail de généralisation des descriptions à un outil d'induction, puis de comparer les résultats avec ceux d'une classification naturelle établie par l'expert. Pour acquérir l'observé, nous avons construit un générateur de questionnaire interactif multimédia dont l'intérêt est d’automatiser la fabrication de questionnaires à partir d’un modèle de l'observable tout en tenant compte des capacités d'observation des utilisateurs. 233 Conclusion Le questionnaire généré est personnalisable par l'expert et adopte le dialogue structuré de son modèle descriptif (l'ordre des objets). Pour l'objectif de détermination, il est utile de faire participer d'autres utilisateurs au remplissage de la base de cas à apprendre, le classement étant toutefois du rôle de l'expert. En effet, la variabilité des manières d'observer et de comprendre le vocabulaire spécialisé est un obstacle supplémentaire à de bonnes déterminations. Les descriptions restent comparables entre elles puisqu'elles suivent le même schéma, et il est préférable de les intégrer dans la même base de cas même si elles proviennent d'utilisateurs hétérogènes. Pour l'expert, ce travail répétitif de description peut sembler routinier et peu valorisant comparé à la tâche de classification. Néanmoins, décrire fait partie du travail quotidien du systématicien ; cela est nécessaire pour classifier s'il veut accentuer sa familiarité avec ses objets d’étude, ce qui l’amène un jour à découvrir certains caractères de différenciation des spécimens et émettre des hypothèses sur les classes : ainsi, l'observation et la description peuvent conduire à la découverte en révélant certaines régularités qu'il faudra par la suite mettre à l'épreuve de nouveaux faits. C'est ainsi qu'il applique la méthode scientifique : conjecturer et tester [Pólya, 1967] que nous pouvons interpréter en biologie par le schéma suivant (figure 8.1) : robustesse --> conjecturer classe description(s) concept <-- tester Fig. 8.1 : Conjecturer et Tester 234 Chapitre 8 Les tests peuvent revêtir deux formes : 1) la détermination de nouveaux faits par l'utilisation de l'arbre de classification, en utilisant la définition en intension associée au concept. 2) l'identification de nouvelles observations par comparaison avec des descriptions de spécimens représentant l'extension associée à la classe. C'est par un aller et retour entre l'approche inductive et déductive que l'expert sera capable de valider les connaissances apprises dans le but d'affiner les règles caractérisant ses descriptions. Le biologiste adopte naturellement la démarche inductive alors que le mathématicien habitué aux démonstrations raisonne plutôt à l'inverse à l'aide de la déduction. Le rôle de l'informaticien est de faire travailler ce système en procurant les outils de mise en œuvre de la méthode scientifique en biologie. L'amélioration de la robustesse tient alors à la capacité de l'informaticien de faire communiquer deux démarches : la première expérimentale (celle des biologistes) et la seconde fondée sur un raisonnement académique (mathématiciens). Néanmoins, cette méthode de validation après le traitement est nécessaire mais pas suffisante : elle permet principalement de valider l'observé (les descriptions) plus que la validation de l'observable (voir figure 2.4). Nous nous sommes en effet aperçu qu'une partie non négligeable de l'élaboration du modèle descriptif a lieu en amont de la phase d'induction au moment de l’acquisition des exemples. Par un processus de validation croisée du modèle par des descriptions, au fur et à mesure qu'il décrit, l'expert va penser à des descriptions plus proches de la réalité observée (les exceptions qui traduisent les extrèmes de la variabilité intra-spécifique). Par exemple, le questionnaire n’oublie jamais de demander une confirmation sur la pertinence de certains caractères non décrits, mais qui devraient l'être pour se conformer au modèle descriptif. Cela oblige l’expert à fournir des descriptions cohérentes et exhaustives, sinon il est amené à modifier son opinion sur son propre modèle de description. Il va alors chercher à l’affiner et à répercuter ses observations dans le modèle descriptif, puis dans les exemples. Conclusion 235 8.2 Limites actuelles Notre méthode demande que le modèle descriptif soit complet par rapport à un domaine bien délimité. L'exhaustivité de l'observable est une exigence théorique très difficile pour l'expert : elle est néanmoins recherchée pour ne pas devoir changer en profondeur la structure du modèle descriptif, ce qui aura pour conséquence de devoir modifier les anciens cas “à la main”. En effet, nous n'avons pas encore conçu les outils de maintien de la cohérence de l'ancienne base de cas par rapport aux changements effectués dans un nouveau modèle descriptif (élimination d'objets, d'attributs ou de valeurs possibles, rajout d'objets, changement dans la structure de description, etc.). Cette phase de mise à jour des données par rapport à un modèle de l'observable est une des perspectives à prendre en compte dans une prochaine étape pour la robustesse du système global : il n'est pas possible de tout prévoir dès le départ dans le modèle. Pour ce même modèle, nous n'avons pas non plus conçu l'éditeur permettant de renseigner les règles contextuelles entre les objets et les attributs observables : par exemple, l'expert ne peut pas indiquer le fait que, lorsque le nombre des orifices de la face exhalante est unique, alors ce n'est pas la peine de répondre aux attributs “répartition” et “localisation” des orifices. Au niveau du traitement des descriptions, nous n'avons pas encore pu mesurer sur notre application l'intérêt d'intégrer les approches inductive et analogique pour “savoir raisonner” à des fins de classification et de détermination en biologie. Cette intégration est l'objet du projet INRECA en cours dont l'annexe 5 donne un aperçu. Plus spécifiquement, nous souhaiterions associer une sémantique au niveau du critère de séparation des classes pour ne pas tenir compte uniquement de son efficacité de discrimination inter-classe : ceci se comprend bien pour la détermination où il faut arriver rapidement à une conclusion mais pas forcément pour la classification : le critère mono dimensionnel du gain d'information est pauvre et peu significatif surtout lorqu'il reste peu d'exemples à comparer. De plus, un choix arbitraire est effectué lorsque deux critères ont un pouvoir de discrimination identique. Il serait bon de faire intervenir d'autres paramètres d’un niveau plus sémantique que la seule entropie dans la mesure (méta-connaissance sur les objets prioritaires par rapport aux autres, facteurs de tolérance aux bruits, etc.). De même, notre outil d'induction comporte certains biais dans sa manière d'élaborer une classification artificielle. Certains attributs ont un pouvoir de discrimination intrinsèque plus important du fait du nombre de valeurs possibles qu'ils possèdent : la forme du corps de l'éponge contient 17 valeurs lorsqu'elle est traitée sans considérer son type classifié, alors qu'elle ne devrait en compter que 5 en tenant compte de la taxonomie introduite par l'expert 236 Chapitre 8 (c'est-à-dire les cinq nœuds intermédiaires). KATE transforme aussi des disjonctions d’imprécision dans les exemples en conjonction de variation au moment de la détermination d’une nouvelle observation. On considère ici la variation comme une forme d’imprécision, ce qui justifie un traitement identique des exemples. De plus, le traitement des intervalles pour les attributs numériques n'est pas optimal quant au choix des seuils : le lecteur peut se référer aux travaux de [Fayyad & Irani, 1993]. Il serait donc utile d'étudier d'autres possibilités de discrétisation que celle de la binarisation de l'attribut dans KATE. KATE et CaseWork ont été mis à l'épreuve sur d'autres applications non biologiques (attribution de crédits bancaires, aide à la photo-interprétation, diagnostic de pannes, etc.). Dans celles-ci, les connaissances pouvaient se réduire à un tableau de données classique. Dans notre application, KATE doit être capable de traiter les objets multi-instanciés correspondant aux objets horde formalisés par [Diday, 1987] et repris par [Conruyt et al., 1992] sous l’appellation horde composite. Cela signifie de savoir gérer des appariements multiples entre descriptions pour respecter l'homologie des objets et non pas seulement une unification directe entre deux objets de même nom appartenant à des descriptions différentes : les travaux de [Perinet-Marquet, 1993] sur les structures itératives sont un début de recherche dans ce sens. Enfin, il reste aussi la limite suivante : nos outils d'acquisition de l'observable et de l'observé ont été testés à partir d’un modèle de description issu d'une seule application (Hyalonema). Il faudrait étudier d'autres classes zoologiques pour expérimenter les logiciels et montrer ainsi le bien fondé de notre méthode d'acquisition de connaissances descriptives pour aider les systématiciens dans leurs recherches. Si KATE et CaseWork sont déjà commercialisés par AcknoSoft, le logiciel HyperQuest a quant à lui atteint un niveau de prototype avancé avec une documentation associée [Conruyt & Dumont, 1993]. 8.3 Perspectives L'expérience nous montre que la robustesse n'est pas simplement un résultat lié au traitement des données, qui s'arrêtera à la validation des connaissances apprises. C'est pour nous un processus incrémental qui s'inscrit dans la continuité, en appliquant la méthode hypothético-déductive sur un même domaine d'expertise, de manière itérative. Les domaines naturels sont incomplets par nature car ils sont caractérisés par une grande variabilité (multiples exceptions), une évolution des phénomènes à décrire (ex : maladies) et des techniques d'observation de plus en plus précises (cytologie, biochimie, ADN...). Il est alors difficilement concevable de modéliser “tout” l'observable à un moment donné : le modèle descriptif est une photographie qui Conclusion 237 reflète le domaine de discours et les connaissances instantannées de l'expert : cela évolue nécessairement. La validation des connaissances apprises (règles, arbre de décision) n’est pas ainsi seulement un processus post-opératoire sur les données comme nous pouvions le penser avant cette thèse. La qualité d'une classification artificielle est dépendante de la précision et de l'exhaustivité des descriptions fournies. En introduisant des connaissances “de fond” (le modèle descriptif), il s'agit pour l'expert de valider l’expérience acquise mais non toujours explicite (les “savoir observer” et “savoir décrire”) avant d'appliquer un raisonnement. Cette caractéristique est à prendre en compte pour les perspectives de développement d'outils d'aide à la validation de ce savoir en phase d'acquisition des exemples. N'oublions pas que le temps consacré à cette phase est de loin le plus important dans la méthode d’apprentissage utilisée. Dans l'avenir, le rôle de l'informaticien désireux de concrétiser son travail de recherche sur l’acquisition des connaissances ne se bornera pas à fournir des outils de traitement des données (“classez, nous classifierons ensuite !”). Il lui faudra assumer un rôle de cogniticien, prêt à s'investir avec la curiosité nécessaire pour comprendre les difficultés inhérentes au domaine étudié. Il est préférable qu'il parte d'ailleurs de problèmes concrets à résoudre et qui sont posés par l'expert (par exemple, celui de traiter le biais introduit par la quantité d'information des attributs classifiés dont on ne considère que les feuilles de la taxonomie des valeurs possibles). C'est une démarche coopérative et pluridisciplinaire qui doit partir des travaux existants pour améliorer la robustesse des systèmes d'aide à la classification et à la détermination en biologie. Cette amélioration passe par la revalorisation de la notion de description dont le schéma 8.1 montre le rôle central. Elle doit exprimer toute la richesse du domaine naturel et refléter l'état des connaissances de l'expert à un moment donné. Il ne suffit pas de savoir représenter des connaissances à l'aide d'un langage à objets pour obtenir un système de détermination robuste. Il faut pouvoir expliciter correctement la connaissance de l’expert en facilitant sa structuration (facteurs de compréhension et de précision), apprécier sa diversité (exhaustivité et redondance), et connaître sa sémantique pour les autres utilisateurs de son système (compréhension, ergonomie et tolérance aux bruits). Le progrès technologique des ordinateurs permet de reconsidérer des pratiques anciennes considérées comme utopiques à l’époque d’Adanson : les descriptions de spécimens. Ces dernières sont compatibles avec les capacités de stockage des machines actuelles, ce qui permet de conserver le maximum d’information par rapport à des “descriptions” de concepts. Posons-nous donc la question de savoir ce que sont les véritables qualités d'une donnée après le 238 Chapitre 8 travail énorme réalisé dans le domaine de leur analyse ! L'expert devra disposer d'outils permettant de développer sa familiarité avec les spécimens. La transmission de son savoir par un système expert de détermination passe alors par une valorisation de son expérience. Celle-ci pourra s’acquérir à l'aide d'outils de modélisation de son domaine pour acquérir des descriptions robustes, puis de mise à l'épreuve de ses opinions par la construction de classifications artificielles. Ayant toujours comme référence le modèle observable et disposant intégralement des exemples issus du modèle, ceux qui auront à utiliser ces classifications profiteront de toute la connaissance explicitée à un moment donné. Cela devrait permettre d'éviter de raisonner à partir de connaissances comprises hors de leur contexte, non maîtrisées ou trop abstraites, puisque la source même de ces connaissances aura été préservée. L’amélioration de la robustesse des systèmes d’aide à la description, à la classification et à la détermination des objets biologiques est donc le préambule à l’élaboration d’outils de Taxonomie Assistée par Ordinateur plus performants. REFERENCES Aamodt A. (1989). “Towards robust expert systems that learn from experience - an architectural framework”, in J. Boose, B. Gaines, J. G. Ganascia (Eds.), EKAW-89, Third European Knowledge Acquisition for Knowledge-Based Systems Workshop, pp. 311-326, Paris, 1989. Aamodt A . , Plaza E . (1994). “Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches”, AICOM Vol. 7, n° 1, 1994. Aguirre J.L. (1989). “Construction automatique de taxonomies à partir d’exemples dans un modèle de connaissances par objets”, Thèse de l’INPG, Lab. Artémis-Imag, Grenoble, 1989. Apple (1988). “Guide du langage HyperTalk”, 1988. A r n a u l d A . , N i c o l e P . ( 1 6 6 2 ) . “La logique ou l’art de penser”, Flammarion, Paris, 1970. Ashley K.D. (1987). “Modeling legal argument: reasoning with cases and hypotheticals”, PhD Thesis, University of Massachusetts at Amherst, 1987. Aubé M. (1991). “Cosmos 1001 : petite odyssée numérique”, texte présenté au congrès de l'AMQ (Association Mathématique du Québec), Collège Edouard-Montpetit, Longueil, 1991. Bailly C., Challine J.F., Ferri H.C., Glœss P.Y., Marchesin B. (1987). “Les langages orientés objets”, Cépaduès (Eds.), Toulouse, 1987. B a i n M . ( 1 9 8 6 ) . “A case-based reasoning system for subjective assessment, Actes de la conférence AAAI sur l'intelligence artificielle, pp. 523-527, Morgan-Kaufmann, 1986. Bareiss R . (1989). “Exemplar-Based Knowledge Acquisition: A Unified Approach to Concept Representation, Classification, and Learning”, Academic Press, 1989. Bareiss E . R . , Porter B . W . , Wier C . C . (1990). “Protos : An examplar-Based Learning Apprentice”, Machine Learning : An Artificial Intelligence Approach, Volume III, Morgan Kaufmann, San Mateo, CA, Kodratoff, Y. & R. S. Michalski, R. S. (Eds.), Ch. 4, 1990. Benzecri J.P. (1973). “L'analyse des données”, tome I et II, Dunod, 1973. Bertier P . , Bouroche J . M . (1981). “Analyse des données multidimensionnelles”, P.U.F, Paris, 1981. B l a n c a r d D . , B o n n e t A . , C o l e n o A . ( 1 9 8 5 ) . “TOM, un système expert en maladies des tomates”, PHM & Revue horticole, n° 261, pp. 7-14, 1985. Blancard D. (1988). “Maladies de la tomate : observer, identifier, lutter”, INRA & Revue horticole, 1988. Blythe J., Needham D., McDowell R., Manago M., Rouveirol C., Kodratoff Y . , L e s a f f r e F . M . , C o n r u y t N . , Corsi P . (1988). “Knowledge Acquisition by Machine Learning: The INSTIL project”, in ESPRIT 88 : Putting the technology into use, vol. 1, pp. 769-779, North Holland, 1988. 242 Bobrow D.J., Winograd T. (1977). “An overview of KRL, a Knowledge Representation Language”, Artificial Intelligence 8, pp. 155-173, 1977. Bonnet A. (1984). “L'intelligence artificielle : promesses et réalités”, InterEditions, Paris, 1984. Bourbaki N. (1974). “Eléments d'Histoire des Mathématiques”, Histoire de la Pensée IV, nouvelle édition, Hermann, Paris, 1974. Bourrelly L., Chouraqui E. (1985). “A formal approach to analogical reasoning”, in M.M. Gupta, A. Kandel, W. Bandler, J.B Kiszka (Eds.), Approximate reasoning in expert systems, North Holland, 1985. Bove T . , Rhodes C . (1990). “Que's Macintosh Multimedia Handbook”, Que Corporation, Carmel, Indiana, 1990. Brachman R . J . (1977). “What’s in a concept: structural foundations for semantic networks”, in International Journal of Man-Machine Studies, vol. 9, pp. 127-152, 1977. B r a c h m a n R . J . , S c h m o l z e J . G . ( 1 9 8 5 ) . “An overview of the KL-ONE Knowledge Representation System”, Cognitive Science, vol. 9, pp. 171-216, 1985. Bradshaw G. (1987). “Learning about speech sounds: the NEXUS project”, Actes du quatrième International Workshop on Machine Learning, pp. 1-11. Morgan-Kaufmann, 1987. Breiman L., Friedman J.H., Olshen R.A., Stone C.J. (1984). “Classification and regression trees”, Wadsworth, Statistics probability series, Belmont, 1984. Breuker J., Wielenga B. (1989). “Models of expertise in knowledge acquisition”, in Topics in Expert System design, G. Guida and C. Tasso (Eds), pp. 265-295, 1989. Brito P . (1991). “Analyse de données symboliques. Pyramides d'héritage”, Thèse d'université, Université Paris IX, Dauphine, 1991. Brusca R.C., Brusca G.J. (1990). “Invertebrates”, Sinauer associates, Inc., Sunderland, Massachusetts, 1990. Buchanan B., Feigenbaum E. (1978). “Dendral and Meta-Dendral, their applications dimension”, Artificial Intelligence, vol. 2, pp. 5-24, 1978. Burstein M.H. (1989). “Analogy vs. CBR; The purpose of mapping”, Proc. of the CaseBased Reasoning Workshop, Pensacola Beach, Florida, Morgan Kaufmann, pp. 133-136, 1989. Carbonell J. (1986). “Derivational analogy; A theory of reconstructive problem solving and expertise acquisition”, Machine Learning : An Artificial Intelligence Approach, vol. 2, R. S. Michalski & J. G. Carbonell & T. M. Mitchell (Eds.), pp. 371-392, Morgan Kaufmann, San Mateo, CA, 1986. Celeux G . , Diday E . , Govaert G . , Lechevallier Y . , Ralambondrainy H. (1989). “Classification automatique des données”, Dunod (Eds.), Paris, 1989. C e s t n i k B . , K o n o n e n k o I . , Bratko I . (1987). “ASSISTANT 86 : a knowledge elicitation tool for sophisticated users”, Progress in machine learning, Proc. of EWSL'87, Bled (Yugoslavia), Sigma Press, Wilmslow, pp. 31-45, 1987. Chandrasekaran B. (1987). “Towards a functional architecture for intelligence based on generic information processing tasks”, in Proc. of the 10th International Joint Conference on Artificial Intelligence, pp. 1183-1192, Milan, Italy, 1987. Chandon J.L., Pinson S . (1981). “Analyse typologique, théories et applications”, Masson, Paris, 1981. Références 243 Charlet J., Bachimont B., Bouaud J., Zweigenbaum P. (1994). “Ontologie et réutilisabilité : expérience et discussion”, dans les Actes des Cinquièmes Journées Acquisition des Connaissances, PRC-GDR IA (CNRS), Strasbourg, 1994. Clancey W.J. (1985). “Heuristic Classification”, Artificial Intelligence, 27(3), pp. 289350, 1985. C o l l e s s D . H . ( 1 9 6 7 ) . “An examination of certain concepts in phenetic taxonomy”, in Systematic Zoology, 16, pp. 6-27, 1967. Conruyt N. (1986). “Rapport d’expérimentation du système expert œillet”, mémoire de stage de 3ème année ISARA-INRA, 1986. C o n r u y t N . , Piaton C . (1987). “Acquisition de connaissances descriptives dans le domaine de la pathologie végétale”, mémoire de fin d'étude ISARA-INRA-Cognitech, Lyon, 1987. Conruyt N. (1988). “L'évaluation des logiciels d'apprentissage automatique dans INSTIL”, mémoire de stage de DEA d'informatique, Paris VI & ENPC, Paris, 1988. Conruyt N., Lesaffre F.M. (1988). “Noise and its treatment”, Instil Working Doc., COG/T/6, Cognitech, Paris, 1988. Conruyt N . , Manago M . , Le Renard J . , Levi C . (1992). “Modélisation, Formalisation et Analyse d'objets biologiques en vue de leur identification: application au domaine des éponges marines”, Actes des 3èmes journées “Symboliques- numériques”, Université Paris-IX-Dauphine, 1992. Conruyt N . , Manago M . , Le Renard J . , Levi C . (1993). “Une méthode d'acquisition de connaissances pour la classification et l' identification d'objets biologiques”, Actes des treizièmes Journées sur les systèmes experts et leurs applications, EC2, Avignon, 1993. C o n r u y t N . , Dumont S . (1993). “Manuel d’utilisation d’HyperQuest”, AcknoSoft, 1993. Cordier M. O. (1984). “Les systèmes experts”, La Recherche, n° 151, 1984. Corlett R. (1983). “Explaining induced decision trees”, Proc. of Expert Systems, pp. 136142, 1983. Courtois J. (1990). “Modélisation du raisonnement en diagnostic : généricité et formation”, Communication de la 4ème Université d'Eté CIRILLE : méthodes de raisonnement en intelligence artificielle, Université Lyon I - INSA, Lyon, 1990. Crémilleux R. (1991). “Induction automatique : aspects théoriques, le système ARBRE, applications en médecine”, Thèse d'université, Université Joseph Fourier, Grenoble I, 1991. Cuénot L. (1936). “L’espèce”, Encyclopédie scientifique, G. Doin (Eds.), Paris, 1936. Davis R . (1984). “Diagnostic reasoning based on structure an behavior”, Artificial Intelligence, n° 24, pp. 347-410, 1984. Delhotal P . (1987). “Réalisation de systèmes experts d'aide au diagnostic”, ANPP, Communication de la journée Modélisation et Protection des Cultures, INA, Paris, 1987. D i d a y E . ( 1 9 7 1 ) . “La méthode des nuées dynamiques”, Rev. Stat. Appliquée, vol. XIX, n°2, pp. 19-34, 1971. Diday E . , Lemaire J . , Pouget J . , Testu F . (1982). “Eléments d'analyse des données”, Dunod, Paris, 1982. 244 D i d a y E . ( 1 9 8 7 ) . “Introduction à l'approche symbolique en Analyse des Données”, Actes des Journées symboliques numériques pour l'apprentissage de connaissances à partir de données, pp. 21-56, Eds. E. Diday et Y. Kodratoff, Ceremade, Université Paris IX Dauphine, 1987. Diday E . (1991). “Des objets de l'Analyse des Données à ceux de l'Analyse des Connaissances”, Induction Symbolique et Numérique à partir de Données, vol 1, pp. 9-75, Kodratoff, Y., Diday, E., Editions Cépaduès , 1991. D i d a y E . ( 1 9 9 3 ) . “An introduction to Symbolic Data Analysis”, Rapport de recherche INRIA, 1993. D u b o i s D . , P r a d e H . ( 1 9 8 7 ) . “Théorie des possibilités. Application à la représentation des connaissances en informatique”, Masson, Paris, 1987. Ducourneau R. (1989). “Y3. Langage à objets. Version 3.22”, Sema Group, Montrouge, 1989. D u d a R . , G a s c h n i n g J . , H a r t P . (1979). “Model Design in the PROSPECTOR Consultant System for Mineral Exploration”, in Expert System in the Microelectronic Age, D. Michie (Ed.), Edinburgh University Press, Edimbourg, 1979. Estabrook G.F. (1967). “An information theory model for character analysis”, Taxon, 16, pp. 86-96, 1967. E u l e r L . ( 1 7 0 7 - 1 7 8 3 ) . “Opera Omnia”, 46 vol. parus, vol. 2, Leipzig-Berlin-Zürich, (Teubner et Füssli O.), 1911-1957. Fayyad U.M., Irani K.B. (1992). “On the handling of continuous-valued attributes in decision tree generation”, in Machine Learning, 8, pp. 87-102, 1992. Fayyad U.M., Irani K.B. (1993). “Multi-interval Discretization of Continuous-Valued Attributes for Classification Learning”, in Proceedings of the Thirteenth International Joint Conference on Artificial Intelligence (IJCAI), vol. 2, pp. 1022-1027, Chambéry, 1993. Feigenbaum E.A. (1981). “Expert Systems in the 1980s”, Bond (Eds.), State of the Art Report on Machine Intelligence, Maidenhead Pergamon-Infotech, 1981. Fenelon J.P. (1981). “Qu'est-ce que l'analyse des données?”, Lefonen (Eds.), Paris, 1981. Fisher D., Langley P. (1985). “Approaches to Conceptual Clustering”, Proc. of IJCAI, pp. 691-697, Los Angeles, 1985. Frege G., (1893). “Grundsetze der Arithmetik, begriffsschriftlich abgeleitet”, vol. 1, Jena, dans “Ecrits logiques et philosophiques”, Seuil, Paris, 1971. G a i n e s B . R . , L i n s t e r M . ( 1 9 9 0 ) . “Integrating a Knowledge Acquisition Tool, an Expert System Shell, and a Hypermedia System”, in International Journal of Expert Systems, pp. 105-129, vol. 3, n° 2, Jai Press Inc., 1990. Gascuel O., Carraux G. (1992). “Statistical significance in Inductive Learning”, Proc. of ECAI 92, pp. 435-439, Vienne, 1992. Giarratano F., Riley G. (1989). “Expert systems, principles and programming”, PWSKENT Publishing Company, Boston, 1989. Gomes J. (1992). “Utilisation d’algorithmes stochastiques en apprentissage”, Thèse d’Université, Montpellier II, 1992. Guiasu S . , Theodorescu R . (1971). “Incertitude et information”, Les Presses de l'Université Laval, Québec, 1971. Références 245 Guignard J. L. (1989). “Abrégé de Botanique”, 7ème éd., Masson, Paris, 1989. H a l l R . P . ( 1 9 8 9 ) . “Computational approaches to analogical reasoning; a comparative analysis”, Artificial Intelligence, n° 39(1), pp. 39-120, 1989. H a t o n J . P . , N a d j e t B . , C h a r p i l l e t F . , H a t o n M . C . , L â a s r i B . , Lâasri H . , Marquis P . , Mondot T . , Napoli A . (1991). “Le raisonnement en intelligence artificielle”, InterEditions, Paris, 1991. H o o p e r K . ( 1 9 9 0 ) . “HyperCard: a key to Educational Computing”, in Learning with Interactive Multimedia: Developing and Using Multimedia Tools in Education, S. Ambron, K. Hooper (Eds.), Microsoft Press, Apple Computer Inc., 1990. H u n t E . B . , M a r i n J . , S t o n e P . J . ( 1 9 6 6 ) . “Experiments in induction”, New York Academic Press, 1966. I j i m a I . ( 1 9 2 6 ) . “The Hexactinellidæ of the Siboga Expedition”, Siboga Exp., E.J. Brill (Eds.), 4, 1-383, Leiden, 1926. INSTIL (1989). “The Integration of Numeric and Symbolic Techniques In Learning”, Project Summary, GEC-Marconi Ltd. & Université Paris-Sud & Cognitech, 1989. Kibler D., Aha D.W. (1987). “Learning representative exemplars of concepts: an initial case study”, Actes du quatrième International Workshop on Machine Learning, pp. 24-30, Morgan-Kaufmann, 1987. Kirsch P., Libero M., Rabaux E. (1993). “Open KADS : méthode & atelier pour la modélisation des connaissances”, Génie Logiciel & Systèmes Experts, n° 31, pp. 36-40, 1993. Kleiber G. (1990). “La sémantique du prototype”, Presses Universitaires de France, Paris, 1990. Kodratoff Y., Ganascia J.G. (1986). “Improving the generalization step in learning”, Machine Learning : An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, San Mateo, CA, R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), pp. 215-244, 1986. Kodratoff Y . , Diday E . (1991). “Induction symbolique et numérique à partir de données”, Cepadues (Eds.), Toulouse, 1991. Kodratoff Y . ( 1 9 9 1 ) . “Faut-il choisir entre science des explications et science des nombres ?”, dans Induction symbolique et numérique à partir de données, Kodratoff Y. & Diday E., Cépaduès (Eds.), 1991. Kolodner J.L. (1983a). “Maintaining organization in a dynamic long term memory”, Cognitive Science, 7(4):243:280, 1983. Kolodner J.L. (1983b). “Reconstructive Memory: a computer model”, Cognitive Science, 7(4):281-328, 1983. Kolodner J . L . , Kolodner R . M . (1985). “Using experience in clinical problem solving”, Technical Report GIT-ICS-85/21, School of Information and Computer Science, Georgia Institute of Technology, 1985. Kolodner J.L. (1987). “Extending problem solving capabilities through case-based inference”, Actes du quatrième International Workshop on Machine Learning, pp. 167-178, Morgan-Kaufmann, 1987. Knuth D.E. (1968). “The art of computer programming. Fundamental algorithms”, tome 1, Addison Wesley, 1968. Laurière J.L. (1982). “Représentation et utilisation des connaissances”, TSI, vol. 1, n° 1 et 2, 1982. 246 Lebbe J. (1991). “Représentation des concepts en biologie et en médecine”, Thèse d’Université, Pierre et Marie Curie, Paris VI, 1991. Lehnert W.G. (1987). “Case-based problem solving with a large knowledge base of learned cases”, Actes de la conférence AAAI sur l'intelligence artificielle, pp. 301-306, 1987. Lesaffre F.M., Corsi P., Lapicque J.Y., Manago M., Conruyt N., Needham D., Blancard D. (1989). “Acquérir des connaissances à l’aide de l’apprentissage”, Actes des neuvièmes journées sur les systèmes experts et leurs applications, EC2, Avignon 1989. Le Renard J. (1988). “SEPV - Système global pour le diagnostic des maladies des plantes cultivées françaises”, 1988. Le Renard J., Conruyt N. (1994) “On the representation of observational data used for classification and identification of natural objects”, IFCS'93, Lecture Notes in Artificial Intelligence, Springer Verlag, 1994. (accepté, à paraître). Lieber J. (1993). “Etude du raisonnement par cas”, Mémoire de DEA Informatique, Université de Nancy I, CRIN-CNRS-INRIA, Nancy, 1993. Linné C. Von (1735). “Systema naturæ”, Lugduni Batavorum, 1735. Mahé H., Vesoul P. (1987). “Acquisition des connaissances et adaptation à l'utilisateur : outils et méthodes”, Actes des septièmes Journées sur les systèmes experts et leurs applications, pp. 625-646, EC2, Avignon, 1987. M a n a g o M . ( 1 9 8 6 ) . “ Object Oriented Generalization : a tool for improving knowledge based systems”, Proc. of the First International Meeting on Advances in Learning, Les Arcs, 1986. M a n a g o M . , K o d r a t o f f Y . ( 1 9 8 7 ) . “ Noise and knowledge acquisition”, Proc. of the 10th International Joint Conference in Artificial Intelligence (IJCAI), Morgan-Kauffman, Los Altos, 1987. Manago M . (1988). “Intégration de Techniques Symboliques et Numériques en Apprentissage”, Thèse d'université, Université Paris XI, Orsay, 1988. Manago M., Blythe J. S. (1989). “Learning Disjunctive Concepts”, in Knowledge ReOrganization for Machine Learning, K. Morik (Ed.), Lecture Notes in Computer Science, Springer Verlag, 1989. M a n a g o M . , C o n r u y t N . ( 1 9 8 9 ) . “KATE : un système d’apprentissage avec objets”, Proceedings of the Journées françaises sur l’apprentissage, IRISA, 1989. M a n a g o M . ( 1 9 9 1 ) . “ KATE : Intégration de techniques symboliques et numériques en apprentissage”, dans Induction symbolique et numérique à partir de données, Kodratoff Y. & Diday E., Cépaduès (Eds.), 1991. Manago M., Conruyt N. (1992) “Using Information Technology to Solve Real World Problems”, Comtemporary Knowledge Engineering and Cognition, Schmalhoffer F. & Strube G. & Wetter T. (Eds.), Lecture Notes in Computer Science subseries, pp. 22-37, Springer Verlag, 1992. Manago M., Conruyt N., Le Renard J. (1992). “Acquiring Descriptive Knowledge for Classification and Identification”, in Wetter Th. & Althoff K.-D. & Boose J. & Gaines B. & Linster M. & Schmalhofer F. (Eds.), Current Developments in Knowledge Acquisition EKAW ´92, Springer Verlag, 1992. Manago M., Althoff K.D., Auriol E., Traphöner R., Wess S., Conruyt N., Maurer F. (1993). “Induction and reasoning from cases”, Proceedings of the First European Workshop on Case Based Reasoning (EWCBR-93), M.M. Richter, S. Wess, K.D. Althoff, F. Références 247 Maurer (Eds.), Vol II, Kaiserslautern, 1993. Masini G . , Napoli A . , Colnet D . , Léonard D . , Tombre K . (1989). “Les langages à objets”, InterEditions, Paris, 1989. M a t i l e L . , T a s s y P . , G o u j e t D . ( 1 9 8 7 ) . “Introduction à la systématique zoologique”, dans Biosystema, vol. 1, Société Française de Systématique (Eds.), 1987. M i c h a l s k i R . S . ( 1 9 8 0 ) . “Pattern recognition as rule-guided inductive inference”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-2, n° 4, pp. 349-361, 1980. M i c h a l s k i R . S . , S t e p p R . E . , D i d a y E . ( 1 9 8 1 ) . “A recent advance in data analysis : clustering objects into classes characterized by conjonctive concepts”, Progress in pattern recognition, vol 1, Kunal C. Rosenfeld A. (Eds.), 1981. Michalski R . S . , Stepp R . E . (1983). “Learning from observation : conceptual clustering”, Machine Learning : An Artificial Intelligence Approach, vol. 1, R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), pp. 3-26, Morgan Kaufmann, San Mateo, CA, 1983. M i c h a l s k i R . S . ( 1 9 8 3 ) . “A Theory and Methodology of Inductive Learning”, Machine Learning : An Artificial Intelligence Approach, vol. 1, R. S. Michalski & J. G. Carbonell & T. M. Mitchell (Eds.), pp. 83-129, Morgan Kaufmann, San Mateo, CA, 1983. M i c h a l s k i R . S . (1986). “Understanding the nature of learning : issues and research directions”, Machine Learning : An Artificial Intelligence Approach, vol. 2, R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), pp. 3-26, Morgan Kaufmann, San Mateo, CA, 1986. M i l n e R . ( 1 9 8 7 ) . “Strategies for diagnosis”, IEEE Transactions on Systems, Man and Cybernetics, n° 17, pp. 333-339, 1987. Mingers J. (1987). “Expert Systems - Rule Induction with Statistical Data”, in Journal of the Operational Research Society, vol. 38, n° 1, pp. 39-47, 1987. M i n g e r s J . ( 1 9 8 9 ) . “An empirical comparison of selection measures for decision tree induction”, in Machine Learning 3, 4, pp. 319-342, 1989. Mingers J. (1989). “An empirical comparison of pruning methods for decision tree induction”, in Machine Learning 4, 2, pp. 227-243, 1989. M i n s k y M . ( 1 9 7 5 ) . “A Framework for Representing Knowledge”, in The psychology of Computer Vision, pp. 211-281, Winston P.H. (Eds.), McGraw-Hill, New York, 1975. Napoli A . (1992). “Représentations à objets et raisonnement par classification en intelligence artificielle”, Thèse d’Etat, Université de Nancy I, 1992. N i l s s o n N . ( 1 9 8 0 ) . “Principles of Artificial Intelligence”, Tioga Publishing Co., 1980. Niquil Y . (1993). “Acquisition d’exemples en discrimination”, Thèse d'université, Université Paris IX, Dauphine, 1993. Pankhurst R.J. (1991). “Practical taxonomic computing”, Cambridge University Press, Cambridge, 1991. P e i r c e C . S . ( 1 9 6 5 ) . “Elements of Logic”, in Collected Papers of Charles Sanders Peirce (1839 - 1914), C. H. Hartshone & P. Weiss (Eds.), The Belknap Press, Harvard University Press, Cambridge, MA, 1965. Perinet-Marquet M . (1993). “Description et identification de structures biologiques itératives”, mémoire de stage de DES de Sciences Naturelles, Université Pierre et Marie Curie Paris VI, Paris, 1993. 248 Pitrat J. (1987). “La gestion des connaissances est encore trop procédurale”, interview rev. “01 informatique”, n°956, pp. 38-43, 1987. P ó l y a G . (1958). “Les mathématiques et le raisonnement plausible”, Gauthier-Villars (Eds.), Paris, 1958. Pólya G. (1967). “La découverte des mathématiques”, vol. 1 & 2, Dunod, Paris, 1967. Popper K.R. (1973). “La logique de la découverte scientifique”, Payot (Eds.), Paris, 1973. Popper K.R. (1978). “La connaissance objective”, Complexe (Eds.), Bruxelles, 1978. Q u i n l a n J . R . ( 1 9 7 9 ) . “Discovering rules from large collections of examples : a case study”, in Expert Systems in the micro electronic age, D. Michie (Eds.), Edinburgh University Press, Edinburgh, 1979. Quinlan J.R. (1983). “Learning efficient classification procedures and their application to chess end games”, in Machine Learning : An Artificial Intelligence Approach, vol. 1, Michalski R. S., Carbonell J. G., Mitchell T. M. (Eds.), Morgan Kaufmann, Los Altos, 1983. Rada R., Barlow J. (1989). “Expert systems and hypertext”, The Knowledge Engineering Review, pp. 285-301, 1989. Rechenmann F. (1985). “Shirka : mécanismes d’inférence sur une base de connaissances centrée-objet”, Actes des Journées Bases de Données Avancées, Port-Camargue, 1987. R e y n a u d C . , T o r t F . ( 1 9 9 4 ) . “Connaissances du domaine d'un SBC et ontologies : discussion”, dans les Actes des Cinquièmes Journées Acquisition des Connaissances, PRCGDR IA (CNRS), Strasbourg, 1994. Richard J.F. (1983). “Logique de fonctionnement et logique d'utilisation”, Rapport de recherche n° 202, INRIA, 1983. R o b e r t s R . B . , G o l d s t e i n I . ( 1 9 7 7 ) . “The FRL Primer”, MIT Artificial Intelligence Laboratory, Memo 408, 1977. R o s c h E . , M e r v i s C . , G r a y W . , J o h n s o n D . , B o y e s - B r e a m P . ( 1 9 7 6 ) . “Basic objects in natural categories”, Cognitive Psychology, vol. 8, pp. 382-439, 1976. S c h a n k R . C . , A b e l s o n R . P . (1977). “Scripts, plans, goals, and understanding”, Lawrence Erlbaum Associates, New York, 1977. Schank R . C . (1982). “Dynamic Memory: a Theory of Reminding and Learning in Computers and People”, Cambridge University Press, Cambridge, 1982. S c h u l z e F . E . ( 1 9 0 2 ) . “An account of the Indian Triaxonia”, traduction anglaise de R.V. Lendenfeld, Calcutta, 1902. S i m p s o n R . L . ( 1 9 8 5 ) . “A computer model of case-based reasoning in problem solving: an investigation in the domain of dispute mediation”, PhD Thesis, School of Information and Computer Science, Georgia Institute of Technology, 1985. Shannon C . E . (1949). “The mathematical theory of communication”, University of Illinois press, Urbana, 1949. Shortliffe E.H. (1976). “Computer-based medical consultations : MYCIN”, New York, Elsevier, 1976. Smeci (1991). “Manuel de référence, version 1.65”, ILOG, 1991. Smith E., Medin D. (1981). “Categories and Concepts”, Harvard University Press, 1981. Références 249 S n e a t h E . , S o k a l E . ( 1 9 7 3 ) . “Numerical taxonomy”, W. H. Freeman, San Francisco, 1973. Sowa J.F. (1984). “Conceptual Structures, Information Processing in Mind and Machine”, Addison Wesley, Reading, MA, 1984. S t a n f i l l C . , W a l t z D . L . ( 1 9 8 6 ) . “Toward memory-based reasoning”, in Journal of the Association for Computing Machinery, 29(12):1213-1228, 1986. Stefik M . J . , Bobrow D . G . (1986). “Object-Oriented Programming: Themes and Variations”, in the AI Magazine, 6(4):40-62, 1986. Stepp, R.E., Michalski R.S. (1986) “Conceptual Clustering : Inventing Goal-Oriented Classifications of Structured Objects”, in Machine Learning : An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, San Mateo, CA, R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), pp. 471-498, 1986. S u t c l i f f e J . P . ( 1 9 8 6 ) . “Differential ordering of objects and attributes”, Psychometrika, vol. 51, n° 2, pp. 209-240 , 1986. Sutcliffe J.P. (1993). “Concept, class, and category in the tradition of Aristotle". In: Van Mechelen, I., Hampton, J., Michalsky, R.S., Theuns, P. (Eds.), Chap 3, Categories and Concepts : Theoretical Views and Inductive Data Analysis. Academic Press, London, 1993. Tomassone R. (1991). “La Statistique : un mode de pensée”, Gazette des mathématiciens, n° 48, Société Mathématique de France, 1991. U t g o f f P . E . ( 1 9 8 9 ) . “Incremental induction of decision trees”, Machine Learning 4, 2, 161-186, 1989. Vignes R . (1991). “Caractérisation automatique de groupes biologiques”, Thèse d'université, Université Paris VI, 1991. V o g e l C . ( 1 9 8 8 ) . “Génie cognitif”, Masson, Paris, 1988. W i e l e n g a B . , V a n D e V e l d e W . , S c h r e i b e r A . , B r e u k e r J . , A k k e r m a n s H. (1992a). “The CommonKADS Framework for Knowledge Modelling”, Actes des journées Knowledge Acquisition for Knowledge Based Systems Workshop, Banff, 1992. Wielenga B., Schreiber A., Breuker J. (1992b). , “KADS : a modelling approach to knowledge engineering”, in Knowledge Acquisition, vol. 4, 1992. Winston P. (1977). “Artificial intelligence”, Addison Wesley, Reading, 1977. Wittgenstein L. (1953). “Philosophical investigations”, Blackwell, pp. 31-34, 1953. Yaglom A . M . , Yaglom I . M . ( 1 9 5 7 ) . “Probabilité et information, théorie et application”, Dunod, Paris, 2ème édition, 1969. Zadeh L. A. (1965). “Fuzzy Sets”, Information and Control, 8, pp. 338-353, 1965. 250 LISTE DES FIGURES Fig. 1.1 Fig. 1.2 Fig. 1.3 Fig. 1.4 Fig. 1.5 Fig. 1.6 Fig. 1.7 Fig. 1.8 Notre méthodologie de collecte, d’observation et de description des exemples Tableau des exemples formés d'objets structurés pour les maladies des tomates Un arbre de décision pour la reconnaissance de maladies de la tomate Une classification des maladies de la tomate Représentation de la hiérarchie des symptômes dans TOM Représentation de la hiérarchie d’un symptôme en utilisant l’héritage multiple Disposition du Genre Hyalonema dans la hiérarchie linéenne Chronologie de notre approche de l'acquisition des connaissances 26 34 34 39 39 40 42 46 Fig. 2.1 Fig. 2.2 Fig. 2.3 Fig. 2.4 La robustesse dans la démarche statistique [Tomassone, 1991] Classification des différents types de bruits dans INSTIL Comparaison de notre travail avec l'approche statistique Synoptique de notre méthode d’acquisition des connaissances 62 63 65 69 Fig. 3.1 Fig. 3.2 Fig. 3.3 Fig. 3.4 Fig. 3.5 Fig. 3.6 Fig. 3.7 Fig. 3.8 Fig. 3.9 Rapport entre l'extension et l'intension Mathématiciens et Naturalistes, deux points de vue différents des concepts Le triangle des fonctions entre individus et leurs descriptions Schéma du formalisme de modélisation des données Les trois intensions de la classe Schéma de comparaison des termes employés en systématique Notre conception des différents termes employés dans cette thèse Les modes principaux de raisonnement en apprentissage automatique Relations entre les concepts utilisés 76 77 87 88 88 90 92 96 99 Fig. 4.1 Fig. 4.2 Fig. 4.3 Fig. 4.4 Fig. 4.5 Fig. 4.6 Fig. 4.7 Fig. 4.8 Fig. 4.9 Exemple de l’attribut “longitude” de type “texte” Exemple d’attribut de type “booléen” Exemple d’attribut de type “numérique” Exemple d’attribut de type “nominal” Exemple d’attribut de type “classifié” Exemple d’attribut non polymorphe Exemple de spécialisations d’un objet Exemple de hiérarchie d'objets non instanciés Exemple de hiérarchie d'objets instanciés 118 118 119 119 120 122 123 125 126 Fig. 5.1 Fig. 5.2 Fig. 5.3 Fig. 5.4 Illustration d’une assertion composite a h Schéma de la structure du modèle descriptif Illustration d’une horde composite hi Schéma de formalisation des données 139 140 143 151 Fig. 6.1 Fig. 6.2 Fig. 6.3 Fig. 6.4 Fig. 6.5 Vue des deux plans orthogonaux de description des objets en pathologie végétale Vue globale du modèle descriptif des Hyalonema Vue partielle du modèle descriptif des Hyalonema Vue globale des spécialisations de l’objet “amphidisques” Processus de description d’un spécimen dans le questionnaire 157 160 161 163 164 252 Fig. 6.6 Fenêtre d’édition de l’objet “corps” de Hyanonema Fig. 6.7 Fenêtre d’édition de l’attribut “forme” du corps de Hyalonema Fig. 6.8 Les champs d’édition d’un attribut numérique Fig. 6.9 Fenêtre d’édition des valeurs classifiées de la “forme” du corps de Hyalonema Fig. 6.10 La pile de génération du questionnaire Fig. 6.11 La première carte de la pile du Questionnaire Hyalonema Fig. 6.12 Cartes des caractéristiques et des composants de l'objet “corps” de Hyalonema Fig. 6.13 Représentation des différents états d'un objet dans le questionnaire Fig. 6.14 Correspondance entre un attribut qualitatif et la carte <couleur(corps)> Fig. 6.15 Correspondance entre un attribut numérique et la carte <longueur(tignules)> Fig. 6.16 Correspondance entre un attribut commentaire et la carte <localité(contexte)> Fig. 6.17 Les sous-valeurs de la carte <renflée(forme)> Fig. 6.18 Représentation du lien de spécialisation de l'objet “symptôme sur folioles” Fig. 6.19 Vue de la carte <spécialisations(symptome-sur-foliole)> Fig. 6.20 Représentation de la carte de l'objet “taches ou plages ou nécroses” Fig. 6.21 Vue de la carte <spécialisations(taches-ou-plages-ou-necroses)> Fig. 6.22 Vue de la carte des instances multiples de l'objet “mycroxyhexactines” Fig. 6.23 Description de la première sorte d'objet “mycroxyhexactines” Fig. 6.24 Dépendance entre une valeur d'attribut et d'autres attributs Fig. 6.25 Dépendance entre une valeur d'attribut et d'autres valeurs d'attributs Fig. 6.26 Association de dessins pour illustrer des valeurs d'attributs Fig. 6.27 Les menus "Cas" et "Personnaliser" Fig. 6.28 Le processus de description locale d'un objet Fig. 6.29 La description du cas en LCRC à enregistrer Fig. 6.30 Le dialogue permettant de remplacer un ancien cas de la base de cas Fig. 6.31 La description du cas à consulter Fig. 6.32 La consultation du système expert à partir du questionnaire Fig. 6.33 Déplacer une image dans le questionnaire Fig. 6.34 Associer des boutons multi-formes aux images dans le questionnaire Fig. 6.35 Associer un bouton rectangulaire ou polygonal à une partie d’image Fig. 6.36 Changer le titre d'une question dans le questionnaire Fig. 6.37 Le bouton “Voir une image” de la pile du questionnaire Fig. 6.38 La pile HyperScan Fig. 6.39 Illustration par l'utilisateur d'un objet observé : les amphidisques(2) du cas n° 3 Fig. 6.40 Le bouton “Naviguer” du questionnaire Fig. 6.41 Le bouton “Coursier” du questionnaire Fig. 6.42 Le dialogue permettant de sortir du questionnaire 167 169 170 172 173 176 177 179 180 181 182 183 184 185 185 186 187 187 188 189 190 191 193 195 196 196 197 199 199 200 201 202 203 203 204 204 204 Fig. 7.1 Fig. 7.2 Fig. 7.3 Fig. 7.4 Fig. 7.5 Fig. 7.6 Fig. 7.7 Fig. 7.8 210 219 219 222 223 224 226 226 Schéma d’un nœud de l’arbre T Exemples sous la forme d'un tableau de données Un arbre de classification (ou de décision) Consultation de l'arbre de décision de la figure 7.3 L'analogie selon Bourrelly et Chouraqui (1985) L’explication sur anomalies connues Visualisation des critères ordonnés à la racine de l'arbre de décision (<top>) Une procédure de raisonnement par cas Fig. 8.1 Conjecturer et Tester 233 I L'INDUCTION EN MATHÉMATIQUES* 1. Expérience et opinion. L'expérience modifie les opinions des hommes. Nous apprenons par expérience ou plutôt nous devrions apprendre par expérience. Tirer le meilleur parti possible de l'expérience est l'une des grandes tâches humaines et travailler à cette tâche est la vocation particulière des savants. Un savant digne de ce nom cherche à parvenir à l'opinion la plus correcte possible à partir d'une expérience donnée et à acquérir l'expérience la meilleure pour arriver à l'opinion la plus correcte sur une question donnée. Le processus de la pensée du savant dans l'utilisation de l'expérience est généralement appelé induction. On peut trouver des exemples particulièrement clairs du processus inductif dans la recherche mathématique. Nous étudierons un exemple simple dans la section qui suit. 2. Points de contact suggestifs. L'induction commence souvent avec l'observation. Un naturaliste peut observer la vie des oiseaux, un cristallographe les formes des cristaux. Le mathématicien, qui s'intéresse à la théorie des nombres, observe les propriétés des entiers 1, 2, 3, 4, 5, etc.. Si vous désirez observer la vie des oiseaux (avec quelque chance d'obtenir des résultats intéressants), vous devez avoir une certaine habitude de ces derniers, vous devez vous intéresser à eux, peut-être même devez-vous les aimer. De la même manière, si vous désirez observer les nombres, vous devez vous y intéresser et être quelque peu familiarisé avec eux. Vous devez distinguer les nombres pairs des nombres impairs, vous devez connaître les carrés parfaits 1, 4, 9, 16, 25, etc. et les nombres premiers 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, etc.. (Il est préférable de mettre 1 de côté, en le considérant comme l' «unité», et de ne pas le classer avec les nombres premiers.) Même avec un bagage aussi modeste que celui-ci vous pouvez observer des choses intéressantes. Supposons que par hasard vous rencontriez les relations Ce texte est le 1 er chapitre du livre de G. Pólya "Les mathématiques et le raisonnement plausible", traduit de l’anglais par R. Vallée (CNRS). Il met en évidence le parallélisme entre la démarche scientifique d'un naturaliste et d'un mathématicien. * 256 Annexe 1 3 + 7 = 10, 3 + 17 = 20, 13 + 17 = 30 et que vous remarquiez une certaine ressemblance entre elles. Vous êtes frappé par le fait que les nombres 3, 7, 13 et 17 sont des nombres premiers impairs. La somme de deux nombres premiers impairs est nécessairement un nombre pair ; en fait, 10, 20 et 30 sont pairs. Mais que penser des autres nombres pairs. Se comportent-ils de la même manière ? Le premier nombre pair qui soit somme de deux nombres premiers impairs est, naturellement, 6 = 3 + 3. Après le nombre 6, nous voyons que 8=3+5 10 = 3 + 7 = 5 + 5 12 = 5 + 7 14 = 3 + 11 = 7 + 7 16 = 3 + 13 = 5 + 11. Cela continuera-t-il ainsi indéfiniment ? Quoi qu'il en soit les cas particuliers observés suggèrent une proposition de caractère général : Tout nombre entier supérieur à 4 est la somme de deux nombres premiers impairs. L'examen des cas d'exception, 2 et 4, correspondant à des nombres qui ne peuvent être décomposés en une somme de deux nombres premiers impairs, conduit à préférer la proposition plus complexe suivante : Tout nombre entier qui n'est ni un nombre premier ni le carré d'un nombre premier, est la somme de deux nombres premiers impairs. Nous avons ainsi fait une hypothèse (au sens des physiciens). Nous y sommes parvenus par induction. C'est-à-dire qu'elle nous a été suggérée par l'observation, qu'elle nous a été indiquée par des exemples particuliers. Ces indices sont assez peu convaincants ; les bases sur lesquelles fonder notre hypothèse sont encore peu solides. Nous pouvons, néanmoins, trouver quelque consolation dans le fait que le mathématicien Goldbach, qui l'émit il y a un peu plus de deux cents ans, ne possédait pas de justification meilleure. L'hypothèse de Goldbach est-elle vraie ? Personne ne peut aujourd'hui répondre à cette question. En dépit des efforts de quelques grands mathématiciens, l'hypothèse de Goldbach se trouve être, comme au temps d'Euler, l'une de ces «nombreuses propriétés des nombres qui nous sont familières mais que nous ne sommes pas encore capables de prouver» ou de réfuter. Revenons maintenant en arrière et essayons de discerner quelles étapes, dans le raisonnement précédent, peuvent être considérées comme typiques de la démarche inductive. 257 L'induction en mathématiques Tout d'abord nous avons noté une certaine ressemblance. Nous avons remarqué que 3, 7, 13 et 17 sont premiers, 10, 20 et 30 pairs et que les trois équations 3 + 7 = 10, 3 + 17 = 20, 13 + 17 = 30 sont analogues entre elles. Puis il y eut une étape de généralisation. Des cas particuliers 3, 7,13 et 17 nous sommes passé à tous les nombres premiers impairs, de 10, 20 et 30, à tous les nombres pairs, puis de là à une relation peut-être générale nombre pair = nombre premier + nombre premier. Nous sommes arrivés ainsi à une proposition générale clairement formulée, qui est néanmoins seulement une hypothèse, seulement un essai. Cela signifie que la proposition n'est nullement prouvée ; elle ne peut prétendre être vraie, elle représente seulement une tentative pour parvenir à la vérité. Cette hypothèse présente, néanmoins, quelques points de contact suggestifs avec l'expérience, avec «les faits», avec la «réalité». Elle est vraie pour les nombres pairs particuliers 10, 20, 30, et aussi pour 6, 8, 12, 14, 16. Les remarques précédentes nous ont montré une première étape de la démarche inductive. 3. Points de contact apportant une confirmation. On ne doit pas accorder une confiance trop grande à une hypothèse non prouvée, même si un homme de grande autorité l'a proposée, même si on l'a proposée soi-même. On doit essayer de la prouver ou de la réfuter ; on doit l'éprouver. Nous faisons subir une épreuve à l'hypothèse de Goldbach si nous examinons quelque nouveau nombre pair et décidons s'il est ou s'il n'est pas la somme de deux nombres premiers impairs. Examinons, par exemple, le nombre 60. Réalisons une «quasi-expérience», comme dit Euler. Le nombre 60 est pair, mais est-il la somme de deux nombres premiers ? Est-il exact que 60 = 3 + nombre premier ? Non, 57 n'est pas premier. Est-ce que 60 = 5 + nombre premier ? La réponse est encore «non»: 55 n'est pas premier. Si cela continue ainsi l'hypothèse devra être rejetée. Néanmoins l'essai suivant donne 60 = 7 + 53 et 53 est un nombre premier. L'hypothèse a été vérifiée une nouvelle fois. 258 Annexe 1 La circonstance opposée aurait réglé une fois pour toutes le sort de l'hypothèse de Goldbach. Si en essayant tous les nombres premiers inférieurs à un nombre pair donné, tel que 60, on ne parvient jamais à une décomposition en une somme de deux nombres premiers, on est conduit à rejeter I'hypothèse de façon irrévocable. Ayant vérifié l'hypothèse dans le cas du nombre pair 60, on ne peut parvenir à une conclusion aussi nette. On ne prouve certainement pas le théorème par une vérification unique. Il est néanmoins naturel d'interpréter une telle vérification comme un signe favorable à l'hypothèse, comme un signe susceptible d'augmenter son crédit, bien que l'importance à attacher à ce signe favorable dépende du jugement de chacun. Revenons au nombre 60. Après avoir essayé les nombres entiers 3, 5 et 7, nous pouvons essayer les autres nombres premiers inférieurs à 30. (Il est clair qu'il n'est pas nécessaire d'aller au-delà de 30, égal à 60/2, puisque l'un des deux nombres premiers, dont la somme doit être 60, est obligatoirement inférieur à 30.) Nous obtenons ainsi toutes les décompositions possibles de 60 en une somme de deux nombres premiers: 60 = 7 + 53 = 13 + 47 = 17 + 43 = 19 + 41 = 23 + 37 = 29 + 31 Nous pouvons continuer systématiquement et examiner les nombres pairs les uns après les autres, comme nous l'avons fait pour le seul nombre 60. Nous pouvons construire un tableau des résultats : 6=3+3 8=3+5 10 = 3 + 7 = 5 + 5 12 = 5 + 7 14 = 3 + 11 = 7 + 7 16 = 3 + 13 = 5 + 11 18 = 5 + 13 = 7 + 11 20 = 3 + 17 = 7 + 13 22 = 3 + 19 = 5 + 17 = 11 + 11 24 = 5 + 19 = 7 + 17 = 11 + 13 26 = 3 + 23 = 7 + 19 = 13 + 13 28 = 5 + 23 = 11 + 17 30 = 7 + 23 = 11 + 19 = 13 + 17. L'hypothèse est vérifiée dans tous les cas examinés ici. Toute vérification qui permet d'enrichir le tableau renforce l'hypothèse, la rend plus vraisemblable, plus plausible. Ce n'est certes pas avec ces vérifications-là que nous pouvons prouver l'hypothèse. Nous devons examiner les observations que nous avons réunies, nous devons les comparer et les associer, nous devons chercher les indices qui peuvent s'y trouver cachés. Dans le cas qui nous occupe il est très difficile de trouver un indice important dans le tableau, mais en l'examinant, nous pouvons L'induction en mathématiques 259 parvenir à comprendre plus clairement la signification de l'hypothèse. Ce tableau montre avec quelle fréquence les nombres pairs, qui s'y trouvent inscrits, peuvent être représentés par une somme de deux nombres premiers (6 une fois seulement, 30 trois fois). Le nombre de ces décompositions du nombre pair 2n semble «croître irrégulièrement» avec n. L'hypothèse de Goldbach exprime l'espoir de ne pas voir le nombre de ces décompositions s'annuler, si loin que nous étendions le tableau. Les cas particuliers que nous avons examinés sont de deux espèces : ceux qui ont précédé la formulation de l'hypothèse et ceux qui sont venus après. Les premiers ont suggéré l'hypothèse, les seconds l'ont confirmée. Ces deux sortes de cas fournissent chacun un contact entre l'hypothèse et «les faits». Le tableau ne fait aucune distinction entre les points de contact «suggestifs» et ceux qui sont «confirmatifs». Revenons maintenant au raisonnement précédent et essayons d'y déceler des traits caractéristiques de la démarche inductive. Ayant conçu une hypothèse, nous avons essayé de découvrir si elle était vraie ou fausse. Notre hypothèse était une proposition de caractère général suggérée par certains cas particuliers où nous avions remarqué qu'elle était vraie. Nous avons par la suite examiné quelques exemples supplémentaires. L'hypothèse s'étant trouvée être vraie dans tous les cas examinés, notre confiance s'en trouve augmentée. Nous n'avons, il me semble, rien fait que de raisonnable. En agissant ainsi nous faisons confiance au principe suivant : Le crédit d'une proposition hypothétique de caractère général augmente lorsque celle-ci a été vérifiée sur un nouveau cas particulier. Est-ce là le principe sous-jacent à la démarche inductive ? 4. L'attitude inductive. Au cours de notre vie nous nous attachons souvent à des illusions. C'est-à-dire que nous n'osons pas mettre à l'épreuve certaines de nos opinions qui pourraient facilement être infirmées par l'expérience, parce que nous craignons de rompre notre équilibre affectif. Il peut se trouver des circonstances où il ne soit pas déraisonnable de s'attacher à des illusions, mais quand il s'agit de science une attitude tout à fait différente est nécessaire, c'est l'attitude inductive. Cette attitude nous conduit à contrôler nos opinions par l'expérience de façon aussi efficace que possible. Elle demande un certain goût pour les faits. Elle demande de savoir s'élever des observations aux généralisations et de savoir redescendre des généralisations les plus hardies aux observations les plus concrètes. Elle demande de dire «peut- 260 Annexe 1 être» avec mille nuances différentes. Elle demande beaucoup d'autres choses et tout particulièrement les trois suivantes : 1 - Etre prêt à modifier une opinion personnelle. 2 - Modifier une opinion quand il y a une raison impérative de le faire. 3 - Ne pas modifier une opinion à la légère, c'est-à-dire sans avoir quelque bonne raison pour cela. Ces remarques semblent banales. Et pourtant des qualités assez rares sont nécessaires pour vivre conformément aux préceptes correspondants. Le premier précepte exige du «courage intellectuel». Il faut du courage pour modifier ses opinions. Galilée, s'élevant contre les préjugés de ses contemporains et l'autorité d'Aristote, offre un grand exemple de courage intellectuel. Le second exige de l' «honnêteté intellectuelle». Conserver une hypothèse qui a été clairement infirmée par l'expérience, simplement parce que c'est une hypothèse personnelle, ne serait pas honnête. Le troisième exige une «sage prudence». Changer d'opinion sans motif sérieux, par exemple pour se conformer à une mode, serait peu raisonnable. Néanmoins nous n'avons ni le temps ni la force d'examiner sérieusement toutes nos opinions. Aussi est-il sage de consacrer notre tâche quotidienne aux seules opinions que nous pouvons espérer améliorer, de nous interroger et de faire porter nos doutes sur elles. «Ne croyez pas n'importe quoi, mais doutez seulement de ce qui vaut la peine d'être mis en doute». Le courage intellectuel, l'honnêteté intellectuelle et une sage prudence sont les qualités morales du savant. II L'EXPERT, SON “RAISONNEMENT”* L'échantillon arrivant dans les mains de l'expert fait d'abord l'objet d'un examen visuel complété par la lecture d'une fiche de renseignements ou bien des questions posées à la personne qui a amené l'échantillon (technicien, agriculteur ou expéditeur). L'expert effectue une observation visuelle de tous les organes en analysant très rapidement les symptômes sur chacun d'eux. Avec l'habitude, l'expert arrive à trier les symptômes et à laisser de côté les manifestations secondaires. Il ne regarde que ce qui est important pour l'identification et laisse de côté les indices anormaux. “Nous, on a cette déformation du fait que l'on manipule une énorme quantité d'échantillons, on a tendance à ne retenir que le symptôme typique (au détriment des autres), qui n'apparaît pas toujours sur l'échantillon qu'on a en main.” (cas de la tomate, D. Blancard, 1987). En cela, il possède une démarche plus globale et déjà orientée qu'une approche structurée et algorithmique. Il va à l'essentiel et recherche le fait saillant en ne retenant que les symptômes très caractéristiques. Il aboutit très tôt à quelques hypothèses qu'il va tenter de confirmer à l'aide d'éléments complémentaires relatifs aux critères asymptomatologiques. Ainsi, trois cas sont possibles: 1) L'expert pense à une affection non parasitaire : - phytotoxicité, accident climatique (écart trop important de température entre le jour et la nuit), erreur culturale (excès d'eau par irrigation), anomalie variétale ou génétique. Il formule cette hypothèse et il essaie de l'approfondir. Puis il cherche à la confirmer avec des renseignements sur la conduite culturale au cours de discussions avec l'agriculteur ou le technicien. 2) Le parasite est décelé après constatation de symptômes spécifiques ou bien observation directe de celui-ci : il y a ici reconnaissance instantanée du faciès d'une maladie, liée à l'identification du trait pertinent, sans besoin de pratiquer un isolement. * Ce texte est une analyse concrète de la pratique de diagnostic des experts en pathologie végétale de l'INRA ; il est extrait de trois rapports lors de campagnes de validation de SEPV sur le terrain. 262 Annexe 2 La faculté de reconnaître un parasite est liée à un savoir acquis au cours d'une longue période d'examen des échantillons en laboratoire. L'expert manipule des plants au niveau de l'individu et à une échelle réellement plus restreinte et variée (loupe binoculaire, microscope) que les techniciens et les agriculteurs qui voient la culture dans sa globalité. La pratique routinière des isolements développe les capacités de mémorisation visuelle des échantillons pour effectuer des comparaisons entre les maladies: il s'agit en effet de se rappeler les symptômes sur la plante trois à cinq jours après que l'isolement a été éffectué pour qu'une fois le diagnostic acquis, il puisse donner une réponse à l'agriculteur et le conseiller. Il arrive que les experts établissent un diagnostic visuel en se rappelant un cas identique posé il y a plus de trois ans ! A force de manipulation, I'expérience se transforme en mécanismes souvent intuitifs et inconscients : “C'est compliqué à expliquer... en fait, nous, on a l'habitude de ces trucs-là, presque instinctivement on verra des trucs comme ça, boutures dures, mal foutues, dessèchement des pointes, épaississement de la base, on posera vite la question : c'était déjà présent au moment de la plantation ? ” (cas de l'oeillet, S. Mercier, 1986). 3) L'expert a une “présomption”, il soupçonne un parasite : L'investigation demande à être approfondie. On a donc recours à des techniques de laboratoire de haute précision, c'est-à-dire : - champignon : isolement sur des milieux de culture, essai de contamination : reproduction des symptômes sur des plantes sensibles. - bactérie : isolement sur des milieux de culture, envoi à un service plus spécialisé de l'INRA. - virus : examen au microscope électronique, inoculation à des plantes hôtes, diagnostic sérologique (test Elisa, immunodiffusion, SDS). - insecte : détermination directe, envoi à la station de zoologie. Après examination en laboratoire, on aboutit soit à un résultat négatif, la cause des symptômes reste indéterminée, soit à un résultat positif. L'hypothèse initiale devient alors une certitude et l'expert peut identifier l’infection puis conseiller l'agriculteur. IIIRÉPARTITION DES DESCRIPTIONS DE HYALONEMA PAR SOUS-GENRES * 45 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 118 117 113 107 99 88 82 81 80 79 78 77 76 75 61 60 58 57 55 54 52 50 49 47 41 38 37 36 35 34 33 32 31 30 29 28 27 25 24 16 15 14 3 2 Cyl. 121 101 100 87 86 74 73 72 65 48 45 42 20 10 9 4 Cor. 124 123 122 108 106 97 91 90 89 69 68 67 66 6 5 Oon. Cyl. = Cyliconema Cor. = Corynonema Oon. = Oonema Cos. = Coscinonema * 125 116 115 114 111 110 105 98 83 59 44 21 1 Cos. 120 119 104 71 70 56 51 43 26 8 7 Lep. 109 102 96 95 94 93 53 13 12 11 Pri. 85 84 19 18 17 Pte. Lep. = Leptonema Pri. = Prionema Pte. = Pteronema Par. = Paradisconema 63 62 23 22 Par. 112 46 40 39 Euh. 64 Tha. 92 Phi. 103 Onc. Euh. = Euhyalonema Tha. = Thamnonema Phi. = Phialonema Onc. = Onconema Chaque numéro correspond à une description répertoriée dans la base de cas. IV ARCHITECTURE D'HYPERQUEST IV-1 Les piles d'HyperQuest HyperQuest est composée de trois modules avec un certain nombre de piles qui se répartissent de la manière suivante (figure 1) : HYPERQUEST KATE Source Modèle Editeur de Modèle Questionnaire Générateur de Questionnaire Kate Images + Dépendances Spécialisations Casuel CaseWork Modèle Objets Images Questionnaire Application Fig. 1 : Architecture d'HyperQuest Le module d'HyperQuest intitulé Modèle correspond à la phase 1 d'acquisition du modèle descriptif dans le schéma de notre méthode (cf. § 2.4, figure 2.4) et le module Questionnaire se rapporte à la phase 2 de construction du questionnaire. Ces deux modules appartiennent au dossier Source d'HyperQuest (figure 2) et servent à générer le troisième module qui constitue le dossier Application (figure 4). La partie à droite du schéma représente le traitement des connaissances observées en aval de la méthode (KATE et CaseWork). 266 Annexe 4 Les flèches épaisses montrent les échanges de données (objets, attributs et valeurs) entre les modules. Pour communiquer avec KATE et CaseWork qui ne sont pas des programmes hypertextes, ces données sont représentées au format texte LCRC ou CASUEL dans des fichiers (ASCII). Les flèches plus fines indiquent la manière dont dépendent les piles les unes des autres dans le procédé de construction graphique du modèle descriptif et du questionnaire : ces piles permettent de représenter les objets au format Hypertexte (pile, bouton, carte, etc.). Les flèches fines en pointillé illustrent l'instanciation (la copie) des piles de la source (piles du dossier Source qui servent à générer d'autres piles) en piles appartenant à l'application du domaine lors de la création du modèle et du questionnaire. IV-1.1 Le dossier Source La figure 2 ci-dessous montre la composition du dossier Source d'HyperQuest : Fig. 2 : Le dossier des sources d'HyperQuest L'éditeur (générateur) de modèle est la pile principale où se définissent les objets du domaine et les relations qu'ils entretiennent entre eux. Deux types de relations sont prédéfinis dans HyperQuest, symbolisés par deux piles “Dépendances” et “Spécialisations”. La pile des dépendances permet de construire une hiérarchie de partition (ou de composition) entre les objets (cf. § 6.3.3) alors que la pile des spécialisations permet de préciser un objet particulier sous la forme d'un arbre de recouvrement entre cet objet et ses “sous objets” (cf. § 6.3.4). Dans la plupart des applications, la pile des dépendances est la première à instancier car elle s'applique au domaine lui-même qu'il faut décomposer en objets pour pouvoir l'analyser. Par exemple, nous conseillons d'indiquer comme premier objet le nom du domaine à étudier qui forme la racine du modèle Architecture d’HyperQuest 267 arborescent et de donner comme objets qui en dépendent les trois points de vues suivants : identification, description et contexte. C'est donc la pile des dépendances qui est instanciée la première dans la construction d'un tel modèle. La copie prend alors le nom du modèle du domaine (par exemple “Modèle Hyalonema”) et permet de construire une hiérarchie de partition entre objets. Par contre, il se peut que la pile des spécialisations soit instanciée plusieurs fois pour un modèle donné, cela dépend du nombre d'objets à préciser. Chaque pile de spécialisations instanciée prend alors le nom de l'objet spécialisable. Le générateur de questionnaire est la pile qui permet de construire automatiquement le questionnaire du domaine à partir des informations contenues dans les fichiers textes sur les objets, les attributs et les valeurs. La pile génératrice est instanciée dans le dossier du domaine d'application et prend le nom du questionnaire du domaine comme par exemple “Questionnaire Hyalonema” (figure 4). Le dossier des images contient trois piles qui permettent d'illustrer les objets et attributs du modèle par des dessins explicatifs (figure 3) : Fig. 3 : Les piles permettant d'illustrer le domaine HyperScan est une pile d'Apple Computer. Elle permet de numériser avec un scanner des images ou dessins en noir et blanc qui seront importés dans le questionnaire. Dès qu'un nouveau modèle est créé, les piles “Observable” et “Observé” sont copiées dans le dossier de l'application afin de recevoir les images des objets observables et des objets observés du domaine. Les images des objets observables illustrent les concepts de l'expert. L'utilisateur peut ainsi mieux comprendre son vocabulaire. Les images des objets observés se rapportent aux cas décrits avec le questionnaire. C'est l'utilisateur cette fois qui illustre sa description par des images des objets du cas présent. Elles permettront à l'expert de comprendre l'interprétation des observations de l'utilisateur en retour. Si un dossier sur des images a été constitué pour illustrer les objets ou attributs observables, le questionnaire pourra être personnalisé automatiquement dans sa phase de construction ultérieure. 268 Annexe 4 IV-1.2 Le dossier de l'application du domaine A titre d'exemple, la figure 4 ci-dessous montre la composition du dossier de l'application sur les Hyalonema : Fig. 4 : Le dossier de l'application des Hyalonema La pile “Modèle Hyalonema” est la pile principale du modèle. Il s'agit de la vue globale où sont visibles les objets reliés entre eux par des relations de dépendances (principalement les relations de sous parties et de points de vue). La pile “amphidisques” est la pile de ce composant du domaine que l'expert a voulu préciser en introduisant une hiérarchie d'héritage entre lui-même et ses sous-objets. La pile “Questionnaire Hyalonema” est celle qui est instanciée automatiquement (par programme) à partir du modèle et qui permet d'acquérir des cas. Le dossier des images contient les images observables et observées du domaine dans deux piles : “Observable Hyalonema” et “Observé Hyalonema” (figure 5) : Fig. 5 : Le dossier Images des Hyalonema 269 Architecture d’HyperQuest On peut noter la règle d'instanciation suivante dans HyperQuest : Toutes les piles d'une application ont un nom qui se termine par le nom du domaine et sont regroupées dans le dossier du nom de l'application. Le fichier ASCII “Hyalonema.config” est le fichier de configuration de l'application qui permet de communiquer les informations importantes (chemins d'accès, variable à expliquer, etc.) entre les différents modules du système d'apprentissage. Le dossier Casuel (figure 6) permet de stocker toutes les données au format CASUEL pour KATE et CaseWork. Ces données sont écrites dans des fichiers ASCII différents selon leur nature : Fig. 6 : Le dossier Casuel des Hyalonema Le modèle descriptif engendre trois fichiers d'objets, de types, et d'attributs formant les définitions CASUEL du modèle descriptif. Le questionnaire construit un autre fichier de cas contenant toutes les descriptions observées avec leurs identifications associées. Enfin un dernier fichier de configuration est produit aussi bien par le modèle descriptif que par le questionnaire. Ces fichiers sont les points d'entrée en CASUEL du système KATE et CaseWork. Le dossier Descriptions contient deux fichiers ASCII de description des cas (figure 7) : Fig. 7 : Le dossier Descriptions des Hyalonema 270 Annexe 4 Le premier fichier CasLevi est le nom du fichier des cas donné par l'expert. Ces descriptions sont lisibles par un non informaticien et forment un premier essai de construction de descriptions naturelles pour l'édition manuscrite et la comparaison de cas (voir figure 2.4, phase 2). Le second fichier est le même fichier de cas plus facilement interprétable par HyperQuest mais moins lisible que le premier. Remarques : 1) les fichiers ASCII sous le traitement de texte Word sont reconnaissables par la justification à gauche des lignes de texte de l'icône du bureau. Le fichier de cas de la figure 6 est représenté par l'icône standard des fichiers textes ASCII. 2) Les piles contiennent à la fois du code compilé en C et HyperTalk 2.1 sous forme de commandes externes (XCMD et XFCN). Il n'est pas nécessaire de d'apprendre le langage C et HyperTalk pour utiliser HyperQuest. Mais la connaissance des concepts d'HyperCard est néanmoins utile pour bénéficier de tout l'environnement de création de dessins. HyperQuest laisse en effet à l'utilisateur toute la panoplie des outils propres à HyperCard qui lui permettront de personnaliser les cartes du questionnaire s'il le désire. 3) Il y a 5 niveaux d'utilisation des piles HyperCard : de la navigation (niveau 1) jusqu'à la programmation (niveau 5). Pour utiliser HyperQuest, il faut se trouver au moins au niveau 2 (texte). Néanmoins dans cette première version d'HyperQuest, le niveau d'utilisation est laissé en mode programmation. V SYNTAXE BNF * POUR LE LCRC Nous décrivons dans cette section la syntaxe du Langage Commun de Représentation des Connaissances (LCRC) que nous avons mis au point. Il sert à interfacer les différents modules d'une plate-forme d'aide à la description, à la classification et à la détermination des objets biologiques. Les expressions LCRC se trouvent dans des fichiers ASCII (un fichier pour les attributs, un pour les objets, un pour les valeurs d'attributs et un pour les cas). Le langage LCRC est à base de rubriques commençant par des mots clés (ce qui permet aux différents outils de ne pas interpréter les rubriques qui ne leur sont pas destinées) et est facilement extensible par l'ajout de nouvelles rubriques. Il permet d'associer des informations aux objets, aux attributs et aux valeurs d'attributs. V-1 Notes sur les grammaires BNF Les parenthèses apparaissent telles quelles dans le texte. [, {, <, *, + sont des marques syntaxiques de la grammaire BNF. <> indique une rubrique détaillée plus loin. [] indique que le contenu est optionnel, {} sont des délimiteurs pour borner leur contenu. Ils peuvent être suivies de * ou de + : * indique que ce qui est entre {} apparaît 0 ou plusieurs fois, + au moins une fois et peut-être plusieurs fois. A l'intérieur de {} et [], une barre verticale indique des choix mutuellement exclusifs. En résumé : * {x}* signifie 0 ou plusieurs occurences de x, {x}+ une ou plusieurs occurences de x, [x] 0 ou 1 occurence de x, {x | y} soit x soit y. Forme de Backus-Naur. 272 Annexe 4 V-2 Les définitions LCRC du modèle descriptif V-2.1 Syntaxe des objets <objet> ::= (defobject <nom d'objet> [(superObject <nom d'objet>+)] [(subObject <nom d'objet>+)] [(subparts <nom d'objet>+)] [(part-of <nom d'objet>+)] [(relations <nom d'attribut>+) [(slots <nom d'attribut>] [(question <string>)] [(string <string>)]) ex: (defobject tache-sur-feuilles (sup tache) (slots nombre confluence variabilite couleur) (string "tache sur feuilles")) V-2.2 Syntaxe des attributs <attribut> ::= (defslot <nom d'attribut> <nom d'objet> {nominal | ordinal | integer | real | relation} (range <range>) (cardinal <cardinal>) [(question <string>)] [(string <string>)] [<additional statement>]) <range> ::= {<nominal range> | <numerical range> | <relation range>} <nominal range> ::= <value>+ <numerical range> ::= <value> <value> ;; ;; ;; ;; Ce sont les valeurs possibles de l'attribut. Pour les numériques, la première valeur est la borne inférieure et la seconde la borne supérieure. * veut dire ici l'infini (cas particulier par rapport à la marque syntaxique de la grammaire). Ex: (defslot taille integer (range 0 *) (cardinal 1)) Syntaxe BNF pour le LCRC 273 <relation range> ::= <nom d'objet>+ <cardinal> ::= {1 | <card inf> <card sup> | <card inf> *} ;; * signifie n'importe quel nombre de valeurs au dessus de <card inf>. <additional statement> ::= <keyword> <definition> <keyword> ::= <symbol> <definition> ::= <any ASCII character> V-2.3 Syntaxe des valeurs <valeur> ::= (defvalue <nom de valeur> [(SuperValue <nom de valeur>)] [(SubValue <nom de valeur>+)] [(String <string>)]) Note : Une valeur peut être soit la valeur d'un attribut d'un objet, soit un diagnostic. V-3 Les descriptions LCRC du questionnaire V-3.1 Syntaxe des cas <cas> ::= (defcase [<numéro de cas>] [<nom du cas>] [<commentaire>] [<diagnostic>] ; un cas sans diagnostic peut être utilisé en auto-consultation <description>) <numéro de cas> ::= (number <positive integer>) <nom de cas> ::= (name <string>) <diagnostic> ::= (diagnosis <nom de diagnostic>+) <commentaire> ::= (comment <string>) <description> ::= (description (case <description d'objet>) {(<nom d'objet> [: <identificateur>] <description d'objet>)}*) 274 Annexe 4 ;; l'identificateur (nom d'objet) est nécessaire lorsqu'il y a plusieurs objets de même type. <description objet> ::= [(subparts {<object> | (<object> <identificateur>+) | (<object> ?) | (<object> none)}+)] <attribut>* ;; none dénote la liste vide (c’est-à-dire un marqueur indiquant qu'il n'y a pas ;; d'objet de ce type) <attribut> ::= (<nom d'attribut> {<value> | ?}) ;; ? dénote l'inconnu <valeur d'attribut> ::= {<valeur simple> | (<valeur simple>+) | none} <valeur simple> ::= {symbole | <valeur numérique>} <string> ::= "<lettre alpha-numérique sans guillemets>" VI INDUCTION AND REASONING FROM CASES Michel MANAGO (1) , Klaus-Dieter ALTHOFF (2) , Eric AURIOL (1), Ralph TRAPHÖNER (3) , Stefan WESS (2) , Noël CONRUYT (1) , Frank MAURER (2) 1 Introduction We present the INRECA european project (ESPRIT 6322) on integration of induction and casebased reasoning (CBR) technologies for solving diagnostic tasks. A key distinction between case-based reasoning and induction is given in [1]: "In case-based methods, a new problem is solved by recognising its similarities to a specific known problem then transferring the solution of the known problem to new one (...) In contrast, other methods of problem solving derive a solution either from a general characterisation of a group of problems or by search through a still more general body of knowledge". In this paper, we distinguish between a pure inductive approach and a case-based one on the basis that induction first computes an abstraction of the case database (ex: a decision tree or a set of rules) and then uses this general knowledge for problem solving. During the problem solving stage, the system does not access the cases. 2 INRECA’s inductive and case-based approaches Induction is a technology that automatically extracts general knowledge from training cases. KATE is the inductive component of INRECA. It builds a decision tree from the cases by using the same search strategy, hill-climbing, and same preference criteria that is based on Shannon's entropy as ID3 [2]. Unlike most induction algorithms, KATE can handle complex domains where cases are represented as structured objects with relations and it can use background knowledge. At each node, KATE generates the set of relevant attributes of objects for the current context and selects the one that yields the highest information gain. For instance, an attributes such as “pregnant” for a patient whose sex is known to be “male” further up in the decision tree is eliminated before the information gain computation. Background domain knowledge and class descriptions allow to constrain the search space during induction [3]. Case-based reasoning is a technology that makes direct use of past experiences to solve a new problem by recognising its similarity with a specific known problem and by applying the known solution to the new problem. PATDEX is the case-based component of INRECA. It consists of two case-based reasoning subcomponents for classification and test selection. A procedure that dynamically partitions the case base enables an efficient computation and updating of the similarity measures used by the CBR subcomponents. For the classification subcomponent, the applied similarity measures are dynamic. The underlying evaluation (1) AcknoSoft , 58a rue du Dessous des Berges, 75013 Paris - France. (2) University of Kaiserslautern, dept. of Computer Science, PO Box 3049, 6750 Kaiserslautern - Germany. (3) tecInno GmbH, Sauerwiesen 2, 67661 Kaiserslautern - Germany. 276 Annexe 5 function is adapted using a connectionist learning technique (competitive learning). For the test selection, the adaptation of similarity measures is based on an estimation of the average costs for ascertaining symptoms using an A*-like procedure. PATDEX can deal with redundant, incomplete, and incorrect cases and includes the processing of uncertain knowledge through default values. PATDEX is described in [4] and [5]. 3 The need for integration INRECA integrates induction and case-based reasoning so that they can collaborate and provide better solutions than they would individually. Before describing how integration is performed, we first state why the two approaches are complementary. Induction presents some limitations for building an identification system that can handle missing values during consultation. Consider the following case base drawn from an application that identifies marine sponges developed at the Museum of Natural History in Paris. CASE CLASS Ex1PARADISCONEMAELLIPSOID Ex2COSCINONEMACONICAL Ex3CORYNONEMAELLIPSOID ... ... ... SHAPE(BODY) LARGE LANCET-SHAPE LANCET-SHAPE ... TEETH-TIP(MACRAMPHIDISQUES) ... ... ... ... ... Table 1 - A database of cases for an application which identifies marine sponges KATE works in two steps: it first learns a decision tree and then uses the tree to identify the unknown class of a new incoming sponge. Consider what happens when the user does not know how to answer the first question asked during consultation of the tree of figure 1. teeth-tip(macramphidisques)= ??? When the user answers lancet-shape "unknown", KATE proceeds by large following both branches "lancetshape(body) = conical paradisconema: ex1 shape" and "large" and combines ellipsoid conical the conclusions found at the leaves. In the "large" branch, it corynonema: ex3 coscinonema : ex2 reaches the "Paradisconema" leaf Figure 1: A consultation of the decision tree learned by KATE node. In the "lancet-shape" branch, it reaches a test node and the user is queried for the value of the "shape" of the object "body". He answers "conical". KATE reaches the "Coscinonema" leaf and combines the two leaves to conclude that the current case is a "Paradisconema" with a probability of 0.5 or a "Coscinonema" with a probability of 0.5. Consider case ex1 at the "Paradisconema" leaf node. The feature "shape(body)" of ex1 has the value "ellipsoid" unlike the current case where it is "conical". Thus, the current case is closer to ex2 than to ex1 and the correct conclusion is "Coscinonema" with a probability of 1. Unfortunately, the information about the “body shape” of ex1 was generalized away during induction and is no longer available during consultation. Note that there are other methods for handling unknown values during consultation of a tree. Instead of combining branches, one can assign a probability to the branches [6] and follow the 277 Induction and Reasoning from Cases most probable one. However, this does not remove the problem presented above. This problem is not caused by a flaw of the particular induction algorithm used by KATE since we could have used another algorithm and encounter a similar problem. It is not a flaw of the decision tree representation formalism since we could have used production rules generated automatically or manually and still run into this same problem. It is caused by the fact that we are reasoning using an abstraction of the training cases and have generalized away and thus lost some discriminant information. If the consultation system is to handle any configuration of unknown values, such as for applications that deal with photo-interpretation of objects whose features may be hidden in any combinations, case-based reasoning will always perform better than rulebased, decision tree-based or even neural network-based identification systems. This has been confirmed by a set of experiments conducted using PATDEX. We have measured its ability to reach a correct solution when the working case is incomplete (i.e. contains unknown values). Experiments have been conducted with a training set of one hundred cases. The test set also consists of one hundred cases. For every test case the number of known symptom values has been stepwise reduced. Classification accuracy is measured against reduction of the presented information. The results are shown in table 1. Here, a reduced information of 70% means that every case is classified based on 30% of its known symptom values (where 60% of such cases have been correctly classified). Reduced information (%) Classification accuracy (%) 0 100 10 99 20 97 30 96 40 91 50 90 60 76 70 60 80 28 90 11 100 0 Table 2 - Measuring Correctness against Reduction of Information As confirmed by this set of experiments, up to a certain limit, classification accuracy is not significantly decreased by reducing the number of known attribute values in the current case. For instance, when half of the values are missing the system still correctly identifies 90% of the test cases. When using induction, a single missing value for an attribute in the decision tree (this corresponds to a 0.5% reduction in the information available) yields a loss of 50% in accuracy. When a feature is unknown, a case-based reasoning tool looks for alternative features to identify the current case. CBR reacts dynamically and exploit all the information available. In addition, a CBR system is more resilient to errors made by the user during consultation since it computes a similarity measure from the global description of the cases and not a minimal subset like with the inductive approach. It can confirm the conclusions by asking additional questions that modify the similarity measure accordingly. This does not imply that CBR always performs better than induction. During the first year of INRECA, we have defined a catalog of industrial criteria to conduct experiments and compare the two technologies. Our criteria catalog does not merely adresses technical issues such as performance and effectiveness, but also ergonomic and economic aspects such as user acceptance of the technology (domain specialist, naive end-user, data clerk, case engineer etc.), ease to build, validate and maintain the application and so on. After analysis, we claim that induction and CBR are complementary techniques and that integrating these will improve their standalone capabilities. Our comparison is summarized in the next section. The criterias have 278 Annexe 5 been introduced in hierarchical weighted grids to compare in an objective and exhautive manner the induction and CBR components of INRECA as well as other existing tools. 4 Comparison of induction and CBR We summarize the respective merits of the techniques in the following table. Although the experiments have been conducted using PATDEX and KATE, the conclusions drawn are applicable to the underlying technologies in general. Note that according to the distinction between induction and CBR that has been explained in the introduction, we view tools that access the training cases to incrementally maintain the induced rules or trees as CBR tools. Advantages of PATDEX (CBR) Advantages of KATE (Induction) The application is always up-to-date because CBR can work incrementally. CBR handles missing values during consultation and makes optimal use of the information available. The consultation is consistent: what is true today will be true tomorrow (unless the tree has been updated). The decision tree can be compiled into a runtime that does not require the case base to do diagnosis. It can be easily integrated in the customer's environment. CBR can widen the set of current hypothesis whereas The system supports exploratory data analysis and induction only shrinks it. does consistency checks in the data base. The CBR consultation is more flexible for the user of The domain specialist can influence or even impose the consultation system. It can be driven by the user how the consultation is done by modifying the tree by who supply the information he wants instead of being hand. He controls the consultation process. guided step by step through a decision tree. It can handle sensor input and react dynamically to the data. The CBR consultation is more resilient to errors. A classification of the data can be constructed based on After finding a conclusion, the current solutions can the information contained in the tree. be confirmed or refuted. Analogies can be made based on the whole case Induction produces a generalisation of the cases and description instead of a minimal subset. turns data into knowledge. The similarity measure used by PATDEX can evolve over time and is adaptable. The current consultation can be explained to the user The current consultation can be explained to the user by presenting previous cases. by presenting the classification rule. CBR interprets cases dynamically. The consultation of the learnt tree is more performant than the CBR consultation Table 3 - Cost-Benefit Analysis of Induction and CBR 5. Integrating induction and CBR Four critical levels of integration have been identified. For the first level, the two techniques are seating side-by-side and are provided as stand-alone modules that work on the same case data expressed in the CASUEL object-oriented language (toolbox strategy). This is useful because a single technique may match the user’s needs for a particular application, while a combination of both may not. In addition, a decision tree produced by induction allows to detect the inconsistencies of a case database before its use by a case-based reasoning module. For the second level of integration, the two techniques are able to exchange results via the CASUEL representation language (cooperative strategy). The results of one may help to improve the efficiency and to extend the classification capabilities of the other. More precisely, Induction and Reasoning from Cases 279 a decision tree produced by induction can speed up the consultation by the case-based reasoner. The case-based reasoner can supplement the decision tree when choosing among different conclusions (case-based reasoning is started at the end of the consultation of the tree or during consultation when encountering unknown values). The third level of integration allows the combination of individual modules of the tools (workbench strategy). For instance, the information gain measure module may be used to choose the next attribute to be asked during an interactive CBR consultation. The last level fulfils the final goal of INRECA (seamless integration) by mixing the most relevant parts of the two technologies in a single system. Two critical modules are identified: the information gain computation module for the induction technique, and the similarity computation module for the case-based reasoning technique. Our main point is that a single system will never meet the needs of everyone. INRECA offers several integration possibilities and must be configured to meet the requirements of a particular application or of a particular category of users. For instance, a naive end-user must be guided step-by-step by the consultation system in a decision-tree like fashion. On the other end, a domain specialist wants to directly supply whatever information he feels is relevant and remain in control of the consultation system. Moreover, what may be viewed as an advantage of a technology in a given context may turn out to be a drawback in another. For instance, incrementality can be seen as an advantage of CBR over induction to maintain the consulation system automatically and keep up with the knowledge that workers learn through their daily experience. On the other end, we are currently working with an equipement manufacturer who distributes the diagnostic system to his customers and who wants to control the advices that are given to the users (let it be for legual reasons). Thus, he prefers a system that does not evolve permanently and that behaves in a predictable way. In that context, the incrementality is a drawback since he wants to compile the case data into an induction tree that is maintained by him periodically. Finally, one technique may be better adapted at a specific stage of the application life cycle (for example, CBR at the begining to enrich the case database) but not at a later stage (for example, induction can compile the case database when it becomes too big and when efficiency becomes a problem). Thus, INRECA provides several options for the four levels of integration and can be configurated by the application developper . In the next section, we present an architecture that deals with the problem of handling unknown values using CBR, but that pre-index the cases using a decision tree for efficiency. 280 Annexe 5 Toolbox level Induction Case-based reasoning Cooperative level Induction Results in CASUEL Case-based reasoning Workbench level Communication Induction between Modules Case-based reasoning Integrated level Induction Case-based reasoning Figure 2. Four integration levels between Kate and Patdex 6. An integration architecture to handle missing values efficiently As stated in section 3, one main drawback of a decision tree consultation occurs if the user answers “unknown” to a test. Unknown values propagate an uncertainty along all the branches of the “unknown node" - we define an unknown node as a node where the user answers “unknown” during the consultation of the tree although a subsequent test may remove this uncertainty. Moreover, the final diagnosis is probabilistic which is confusing for a non expert user. One way to deal with unknown values in the consultation of a tree is to switch to a casebased reasoning procedure after consulting the tree. When an unknown value is encountered, the consultation of the tree is stopped and the case-based reasoner is used to choose the next tests. The probabilistic diagnoses delivered by Kate may also be refined by using the similarity measure of the case-based reasoner. A workbench integration is needed. The procedure when encountering an unknown value in the consultation of the decision tree is presented below: 1. 2. 3. Get the current situation given by the first tests of the tree. Get the current subset of the cases listed under the unknown node. Switch to Patdex by using the current situation and the current set of cases. Procedure for Switching between Kate and Patdex This procedure combines the advantages of both techniques for efficiency and correctness. In the worst case, the user answers unknown at the root node and we are left with a classical CBR consultation. In the best case, the user never answers unknown and we are left with a classical decision tree traversal mechanism that is very efficient. Conclusions Induction and case-based reasoning are complementary approaches for developing experiencebased diagnostic systems. Induction compiles past experiences into general knowledge used to solve problems. Case-based reasoning directly interprets past experiences. Both technologies Induction and Reasoning from Cases 281 complement each other. Induction is used for detecting inconsistencies in the case data base, case-based reasoning is used during consulation to retrieve similar cases when there are missing values. The induction system can compute a tree to index cases on a predefined number of levels in order to improve the efficiency of case-based reasoning. After traversing that partial tree (interactive consultation), we are left at a leaf node with an initial candidate set that can be passed to the case-based reasoning system. As a consequence, the case-based reasoner works on a much smaller set of candidates. The partial decisions can be confirmed or refuted by the case-based reasoner. In the latter case the tree needs to be updated. Acknowledgement Funding for INRECA has been provided by the Commission of the European Communities (ESPRIT contract P6322). The partners of INRECA are AcknoSoft (prime contractor, France), tecInno (Germany), Irish Medical Systems (Ireland), the University of Kaiserslautern (Germany). KATE is a trademark of Michel Manago. We thank Prof. Claude Lévi and Mr Jacques Le Renard at the Museum of Natural History in Paris for providing the sample application used to illustrate some of the ideas presented here. We also thank Mr Thomas Schultz who has helped us refine our criteria list and who validated and filled our comparison grids for several CBR tools. References [1] Bareiss, R. (1989). Exemplar-Based Knowledge Acquisition. London: Academic Press [2] Quinlan, R. (1983) Learning efficient classification procedures and their application to chess end games. In R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds), Machine Learning: An Artificial Intelligence Approach (Vol. 1). Morgan Kaufmann. [3] Manago M. (1989). "Knowledge Intensive Induction", proceedings of the sixth "International Machine Learning workshop", Morgan Kaufmann. [4] Althoff, K.-D. & Wess, S. (1991). “Case-Based Knowledge Acquisition, Learning and Problem Solving in Diagnostic Real World Tasks”. Proc. EKAW-91, Glasgow & Crieff; also: GMD-Studien Nr. 211 (edited by M. Linster and B. Gaines) [5] Richter, M. M. & Wess, S. (1991). “Similarity, Uncertainty and Case-Based Reasoning in PATDEX”. Automated Reasoning - Essays in Honor of Woody Bledsoe, Kluwer Academic Publishers [6] Quinlan, J. R. (1989). “Unknown Attribute Values in Induction”. Proceedings. of the Sixth International Workshop on Machine Learning, pp. 164-168,. Morgan-Kaufmann. MODÉLISER DÉCRIRE TAXONOMIE ASSISTÉE PAR ORDINATEUR CLASSIFIER - DÉTERMINER - IDENTIFIER