thèse - Base de Connaissances sur les Coraux des Mascareignes

publicité
N° d'ordre :
THÈSE
présentée à
L'UNIVERSITE PARIS IX-DAUPHINE
U.F.R. Sciences des Organisations
pour obtenir le titre de
DOCTEUR ès SCIENCES
Spécialité : INFORMATIQUE
par
Noël CONRUYT
Sujet :
Amélioration de la Robustesse des Systèmes d'Aide à la
Description, à la Classification et à la Détermination des Objets
Biologiques
Soutenue le 24 mai 1994 devant le jury composé de :
M.
E. DIDAY
Directeur
Mme
M.
M.C. HATON
D. DOUMENC
Rapporteurs
Mme
MM
S. PINSON
C. LEVI
J. LE RENARD
J. LEBBE
M. MANAGO
Examinateurs
“L'Université n'entend donner aucune approbation ni improbation aux opinions émises dans les
thèses : ces opinions doivent être considérées comme propres à leurs auteurs”.
A ma femme Eliane, pour la patience et le soutien dont elle a fait preuve pendant
toute la durée de cette thèse,
A toute ma famille, toujours présente et disponible,
A mon cher professeur de guitare Roger Delvoye, dont l'intelligence musicale, la
sensibilité, la rigueur et l'intimité du travail avec l'instrument m'ont servi
d'exemple et de mode de pensée pour notre recherche expérimentale en biologie.
A tous mes amis montagnards, guitaristes, VAT (Volontaires Aux Tropiques),
proches ou lointains...
je dédie cette thèse.
REMERCIEMENTS
Ce travail est un résultat d'une démarche pluri-disciplinaire à la frontière entre
l'informatique, la biologie et les mathématiques. C'est aussi le fruit d'une
continuité dans la recherche de solutions adaptées à des utilisateurs non
informaticiens qui remonte à bientôt dix ans, depuis l'apparition de TOM,
premier système expert en agriculture sur les maladies de la tomate en 1984.
C'est avec plaisir que j'exprime ici ma profonde gratitude envers toutes les
personnes qui ont permis ce rapprochement entre différentes disciplines et qui
ont contribué de près ou de loin à la réalisation de cette thèse.
Tout d'abord, je salue Monsieur Edwin Diday, mon Directeur de Thèse,
Professeur à l'Université Paris IX-Dauphine et Directeur de Recherches à
l'INRIA (Institut National de Recherche en Informatique et en Automatique), qui
m'a encouragé dans l'analyse formelle des objets biologiques, me forçant à plus
de rigueur. En outre, il a instauré dans son équipe CLOREC un véritable débat
d'idées très enrichissant pour rapprocher les différentes communautés de
l’intelligence artificielle, de l’analyse des données, de la biologie, etc.. Qu'il soit
remercié pour la qualité du cadre de recherche qu'il procure à ses thésards.
Ensuite, Monsieur Jacques Le Renard, Directeur de Recherches à l'INRA
(Institut National de Recherche Agronomique) et détaché au MNHN (Muséum
National d'Histoire Naturelle), qui a dirigé aussi ce travail pour la partie
appliquée en biologie. Grâce à lui, j'ai pu “basculer” de l'agronomie à
l'informatique et effectuer tous ces travaux de recherche sur des applications
concrètes jusqu'à la thèse. Qu'il soit remercié pour son grand dévouement, nos
âpres discussions très enrichissantes, l'aide précieuse qu'il m'a apportée pour
rédiger ce manuscrit et le perfectionner dans son fond et dans sa forme.
Je suis aussi très reconnaissant au Professeur Claude Lévi pour sa disponibilité
en tant qu'expert au MNHN, sa patience en l'attente des outils informatiques
permettant de saisir et d'analyser sa connaissance. A travers lui, je pense aussi
aux autres experts que j'ai pu côtoyer à l'INRA, notamment Dominique Blancard
et Serge Mercier qui ont permis à la méthode définie dans cette thèse de voir le
jour. Néanmoins, il reste encore bien des questions soulevées par l'approche
expérimentale et auxquelles nous comptons bien apporter des réponses dans
l'avenir !
Je continuerai en m'adressant aux Professeurs Marie-Christine Haton du CRIN
(Centre de Recherche en Informatique de Nancy) et Dominique Doumenc du
LBIMM (Laboratoire de Biologie des Invertébrés Marins et Malacologie) au
Muséum, qui m'ont fait l'honneur d'être rapporteurs pour cette thèse en
informatique appliquée en biologie. Ils témoignent ainsi de la possibilité de
rapprocher deux disciplines sur un sujet qui nécessitera une grande synergie
dans l'avenir : l’inventaire et l'analyse de la biodiversité.
Ces travaux font suite à une impressionnante recherche dans le domaine de
l'intelligence artificielle et de l'analyse des données. L'objectif est d'étendre cette
analyse aux données structurées dans le souci de conserver la richesse en
information des descriptions.
Je remercie Madame le Professeur Suzanne Pinson (Université Paris IXDauphine) d'avoir bien voulu participer à ce jury et témoigner ainsi de cette
évolution.
J'apprécie tout aussi bien la présence de Jacques Lebbe (Maître de Conférences à
l'Université Paris VI) qui par ses connaissances profondes et son attrait sur le
sujet est pour moi un interlocuteur privilégié et précieux auquel je porte une
grande reconnaissance, ainsi qu'à sa femme Régine Vignes.
Je terminerai la composition du jury en remerciant spécialement Michel Manago
(Docteur en informatique et Fondateur d'AcknoSoft) grâce à qui j'ai pu effectuer
cette thèse en associé dans le cadre d'une convention CIFRE avec l'ANRT
(Agence Nationale de la Recherche et de la Technologie) : joindre des impératifs
de recherche et de développement n'est pas facile au sein d'un travail de thèse,
mais aller jusqu'au bout de ses idées en les faisant aboutir avec un produit
commercial est une expérience qui mérite d'être vécue. Cet objectif n'a pas été
complètement réalisé. Néanmoins, l'idée est bien d'établir une chaîne de
compétences dans la réalisation de logiciels qui reprennent les acquis des thèses
précédentes. Bonne chance donc à Eric Auriol dans son sujet sur l'intégration de
l'induction et du raisonnement à partir de cas. J'ai beaucoup apprécié tes
remarques et nos discussions au niveau de la formalisation des algorithmes.
Pour le réconfort moral pendant les périodes difficiles (programming in C !),
merci à Alain Foubert du LBIMM, à Sylvie et Jérôme d'AcknoSoft.
Je n'oublierai pas de mentionner la contribution des mathématiciens et
informaticiens de l'IREMIA (Institut de Recherche en Mathématiques et
Informatique Appliquées) à l'Université de la Réunion pour la réalisation de ce
travail. Leur accueil très chaleureux et le temps qu'ils m'ont laissé pour rédiger
ce manuscrit en organisant mon emploi du temps d'ATER (Attaché Temporaire
d'Enseignement et de Recherche) m'ont été très profitables. Je remercie aussi
tous les biologistes (Laboratoires de biologie marine et de biologie végétale) de la
Faculté des Sciences pour les suggestions apportées qui justifient ou mettent à
l'épreuve notre démarche expérimentale.
Pour m'avoir permis de passer un service militaire sympathique sous les
tropiques à l'INRA de Guadeloupe et bien que le système expert tomate n'avait
pas prévu les dégâts causés par le cyclône Hugo, je remercie vivement Monsieur
Claude Millier, Directeur de Recherches à l'INRA qui a également fait participer
financièrement l'Institut sur ce projet de thèse.
Que tout ceux qui n'ont pas été cités nommément trouvent ici l'expression de
mes remerciements et de ma sincère gratitude.
Noël Conruyt
TABLE DES MATIERES
INTRODUCTION ........................................................................1
I LE CHEMINEMENT CONCEPTUEL.........................................11
1.1 Les systèmes experts à l'INRA.............................................11
1.1.1 Bien définir la cible des systèmes experts.....................12
1.1.1.1 Les experts .............................................12
1.1.1.2 Les techniciens ou conseillers agricoles.............12
1.1.1.3 Les agriculteurs........................................13
1.1.1.4 Conclusion .............................................13
1.1.2 Bien définir les objectifs et les moyens........................13
1.1.2.1 Savoir observer........................................14
1.1.2.2 Savoir raisonner .......................................14
1.1.2.3 Conclusion .............................................15
1.2 Le projet INSTIL.............................................................15
1.2.1 Neddie.............................................................16
1.2.2 Main ...............................................................16
1.2.3 Maggy.............................................................17
1.2.4 Conclusion........................................................18
1.3 Des systèmes experts à l'apprentissage....................................19
1.3.1 Les systèmes experts ............................................19
1.3.2 Acquérir les connaissances de l'expert ........................21
1.3.3 Adaptation à l'utilisateur.........................................24
1.3.4 Comparaison des deux approches..............................26
1.3.5 Conclusion........................................................29
1.4 KATE..........................................................................29
1.4.1 Une bonne représentation des connaissances..................29
1.4.2 Des mécanismes d'exploitation adaptés........................31
1.5 L'aide à la classification au MNHN........................................36
1.5.1 Comparaison avec l'opération SEPV de l'INRA..............36
1.5.2 Utilisation des langages de frames et de l'hypertexte........40
1.5.3 L’application SPONTAX........................................42
1.6 Conclusion....................................................................45
II QU'EST-CE QUE LA ROBUSTESSE ? ....................................49
2.1 Aspects théoriques ...........................................................50
2.1.1 La robustesse statistique .........................................50
2.1.2 Le formalisme mathématique de description...................51
2.1.3 Combiner du numérique et du symbolique ....................51
2.2 Aspects pratiques.............................................................52
2.2.1 Les facteurs qualitatifs............................................52
2.2.1.1 Fiabilité .................................................52
2.2.1.2 Compréhension........................................52
2.2.1.3 Précision................................................53
2.2.1.4 Exhaustivité ............................................53
2.2.1.5 Cohérence ..............................................54
2.2.1.6 Redondance ............................................54
2.2.1.7 Mise à jour..............................................55
2.2.1.8 Ergonomie..............................................55
2.2.1.9 Tolérance aux bruits...................................57
2.2.1.10 Adaptation aux besoins exprimés ..................58
2.2.2 Les critères globaux d'appréciation............................. 59
2.2.2.1 Applicabilité à des domaines réels................... 59
2.2.2.2 Un langage de représentation puissant.............. 60
2.2.2.3 Facilité de mise en oeuvre par les utilisateurs...... 60
2.2.2.4 Incrémentalité.......................................... 60
2.3 Discussion .................................................................... 61
2.3.1 L'informaticien........................................... 61
2.3.2 Le statisticien............................................. 61
2.3.3 Le biologiste.............................................. 63
2.3.4 Le béotien................................................. 64
2.3.5 L'expert................................................... 64
2.4 Notre méthode d'acquisition des connaissances.......................... 66
2.4.1 Différents types de connaissances à acquérir.................. 66
2.4.1.1 Connaissances de base................................ 66
2.4.1.2 Connaissances de faits observés..................... 66
2.4.1.3 Connaissances produites ............................. 67
2.4.2 Deux types de traitements des exemples pour la
classification et la détermination........................................ 68
2.4.3 La phase de validation des connaissances apprises........... 70
III TERMINOLOGIE ET CONCEPTS MIS EN ŒUVRE ................ 73
3.1 Extension et compréhension................................................ 73
3.1.1 L’extension........................................................ 73
3.1.1.1 Point de vue du philosophe et du mathématicien .. 73
3.1.1.2 Point du vue des biologistes et des naturalistes.... 74
3.1.2 La compréhension................................................ 75
3.2 Classe et concepts............................................................ 78
3.2.1 La classe........................................................... 78
3.2.1.1 Point de vue des mathématiciens .................... 79
3.2.1.2 Point de vue des systématiciens ..................... 79
3.2.2 Les concepts....................................................... 83
3.2.2.1 Du point de vue naturaliste........................... 84
3.2.2.2 Du point de vue mathématique....................... 87
3.3 Classement et classification................................................. 89
3.3.1 Classer et le classement.......................................... 89
3.3.2 Classifier et la classification..................................... 89
3.4 Détermination et identification.............................................. 93
3.4.1 Détermination par comparaison directe......................... 94
3.4.2 Détermination par comparaison avec des descriptions ....... 94
3.5 Apprentissage et raisonnement ............................................. 95
3.6 Individus, instances et objets............................................... 97
3.7 Synthèse des concepts utilisés dans cette thèse........................... 99
IV LE ROLE CENTRAL DES DESCRIPTIONS EN SCIENCES
NATURELLES ........................................................................101
4.1 Objectifs de la description..................................................101
4.2 Qualités de la description...................................................102
4.3 Qualités des descriptions...................................................103
4.4 La représentation des données descriptives..............................103
4.4.1 Structuration naturelle..........................................104
4.4.2 La logique de composition.....................................105
4.4.3 La logique des points de vue ..................................106
4.4.4 La logique de spécialisation....................................106
4.4.5 La logique de particularisation.................................107
4.4.6 La logique d' itération..........................................107
4.4.7 Les conditions contextuelles...................................109
4.5 Représentation structurée selon un modèle descriptif...................110
4.6 Illustration sur les données des éponges marines.......................112
4.6.1 Acquérir l’observable............................................112
4.6.2 Décomposition de l’entité globale en objets...................113
4.6.3 Recherche des attributs de chaque objet.......................114
4.6.4 Recherche des valeurs de chaque attribut .....................114
4.6.5 Les propriétés d’un objet observable..........................115
4.6.5.1 Statuts..................................................115
4.6.5.2 Attributs................................................117
4.6.5.3 Autres propriétés......................................122
4.6.6 Niveau de précision d’un objet.................................123
4.6.6.1 Spécialisation..........................................123
4.6.6.2 Particularisation.......................................124
4.6.7 Possibilité de multi-instanciation de chaque objet............125
4.6.8 Définition des dépendances inter / intra objets................126
4.6.9 Niveau de généralité d’un objet ................................127
4.6.9.1 Représentant unique..................................128
4.6.9.2 Représentant multiple ................................129
4.6.10 L’imprécision d’observation..................................129
4.6.10.1 Au niveau de l’observable..........................130
4.6.10.2 Au niveau de l’observé.............................131
V FORMALISATION DE LA NOTION D’OBJET EN BIOLOGIE ...135
5.1 Les assertions composites..................................................135
5.1.1 Rappel sur les assertions (symboliques) .....................135
5.1.2 Proposition : les objets assertions.............................137
5.1.3 Définition des assertions composites .........................137
5.1.4 Exemples.........................................................139
5.2 Les hordes composites......................................................141
5.2.1 Rappel sur les hordes (symboliques).........................141
5.2.2 proposition : les objets hordes.................................141
5.2.3 Définition des hordes composites.............................142
5.2.4 Exemples.........................................................143
5.3 Les objets de synthèse......................................................144
5.3.1 Rappel sur les objets de synthèse (symboliques)............144
5.3.2 Proposition : les objets de synthèse...........................145
5.3.3 Exemple..........................................................145
5.4 Les objets munis de méthodes et de propriétés..........................146
5.4.1 Cas des variables : ..............................................146
5.4.2 Cas des objets :..................................................147
5.5 Les objets classifiés ........................................................148
5.6 Les exemples d'apprentissage.............................................149
5.7 Conclusion ..................................................................151
VI FORMALISATION INFORMATIQUE DES DESCRIPTIONS :
HYPERQUEST ........................................................................153
6.1 Pourquoi HyperQuest ?.....................................................153
6.2 Particularités d’HyperQuest................................................154
6.3 Le générateur de modèle....................................................155
6.3.1 Conception d’un modèle descriptif ............................156
6.3.2 Règles d’élaboration du modèle descriptif....................158
6.3.3 Dépendances......................................................160
6.3.4 Spécialisations....................................................162
6.3.5 Itérations..........................................................163
6.3.6 Edition d’un objet................................................167
6.3.7 Edition d’un attribut .............................................169
6.3.8 Edition des valeurs classifiées..................................171
6.4 Le générateur automatique de questionnaire .............................172
6.4.1 Principe de construction d'un questionnaire..................172
6.4.2 Entités conceptuelles et hypertextes ...........................174
6.5 L’éditeur de cas : le questionnaire.........................................176
Caractéristiques .........................................................176
6.5.1 Représentation de l’individu....................................176
6.5.2 Représentation des objets de l’individu.......................177
6.5.2.1 Un objet = une carte..................................177
6.5.2.2 Représentation des statuts possibles d'un objet...178
6.5.3 Représentation des attributs d’un objet........................179
6.5.3.1 Attributs qualitatifs...................................180
6.5.3.2 Attributs numériques.................................181
6.5.3.3 Attributs commentaires ..............................181
6.5.3.4 Attributs classifiés....................................182
6.5.4 Représentation des spécialisations d’un objet................183
6.5.5 Représentation des multi-instanciations d’un objet..........186
6.5.6 Représentation des règles entre objets.........................188
6.5.7 Personnalisation des objets.....................................189
Fonctionnalités..........................................................189
6.5.8 Le menu “Cas”...................................................191
6.5.8.1 Le choix “Nouveau” .................................192
6.5.8.2 Le choix “Dernier” ...................................194
6.5.8.3 Le choix “Ancien ...”................................194
6.5.8.4 Le choix “Enregistrer”...............................195
6.5.8.5 Le choix “Consulter l'expert”.......................196
6.5.8.6 Le choix “Voir la liste”...............................197
6.5.8.7 Le choix “Convertir en Casuel”.....................197
6.5.9 Le menu “Personnaliser” .......................................198
6.5.9.1 Le choix “Préférences...” ...........................198
6.5.9.2 Le choix “Scanner une image”......................198
6.5.9.3 Le choix “Tout importer”............................198
6.5.9.4 Le choix “Importer une image”.....................199
6.5.9.5 Le choix “Déplacer l’image” ........................199
6.5.9.6 Le choix “Associer un bouton”.....................199
Les boutons rectangulaires...........................200
Les boutons polygonaux.............................201
6.5.9.7 Le choix “Changer le titre”..........................201
6.5.9.8 Le choix “Déplacer les boutons”....................201
6.5.9.9 Le choix “Eliminer un bouton” .....................201
6.5.9.10 Le choix “Déplacer les champs”...................201
6.5.9.11 Le choix “Sauver la carte” .........................202
6.5.10 Les boutons.....................................................202
6.5.10.1 Le bouton “Voir une image”.......................202
6.5.10.2 Le bouton “Naviguer”..............................204
6.5.10.3 Le bouton “Coursier”...............................204
6.6 Conclusion...................................................................205
VII LE TRAITEMENT DES DESCRIPTIONS BIOLOGIQUES :
KATE ET CASEWORK.............................................................207
7.1 Formalisation de l'approche inductive....................................207
7.1.1 Rappel des Notations............................................208
7.1.2 Principe de la classification par arbre de décision...........209
7.1.3 Algorithme........................................................210
7.1.4 Description des fonctions principales de l'algorithme.......212
7.1.4.1 OrdonnerCritères (E, Yd) ...........................212
7.1.4.2 Meilleure_division (E, s) ............................214
7.1.4.3 Critèred'Arrêt (E).....................................215
7.1.4.4 ConstruireFeuille (E).................................217
7.1.4.5 CalculerSeuil (A,E)...................................217
7.2 De l'induction au raisonnement par cas...................................219
7.2.1 Formalisation de la procédure de détermination..............220
7.2.2 Limites de l'approche inductive................................221
7.2.2.1 Apprentissage automatique = perte d'information221
7.2.2.2 Gestion de l'inconnu en phase de consultation....221
7.2.2.3 Rigidité de la consultation interactive...............222
7.3 Le raisonnement par cas....................................................223
7.3.1 Généralités........................................................223
7.3.2 Notre procédure de raisonnement par cas : CaseWork......225
7.3.3 Formalisation.....................................................227
7.3.4 Comparaison des deux approches .............................228
CONCLUSION ........................................................................231
8.1 Résultats......................................................................231
8.2 Limites actuelles.............................................................234
8.3 Perspectives..................................................................236
R E F E R E N C E S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
LISTE DES FIGURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
ANNEXES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253
I L'induction en mathématiques*......................................................255
II L'expert, son “raisonnement”*......................................................261
III Répartition des descriptions de Hyalonema par Sous-Genre................... 263
IV Architecture d’HyperQuest...........................................................265
IV-1 Les piles d'HyperQuest...................................................265
IV-1.1 Le dossier Source ..............................................266
IV-1.2 Le dossier de l'application du domaine......................268
V Syntaxe BNF* pour le LCRC........................................................271
V-1 Notes sur les grammaires BNF ...........................................271
V-2 Les définitions LCRC du modèle descriptif .............................272
V-2.1 Syntaxe des objets...............................................272
V-2.2 Syntaxe des attributs............................................272
V-2.3 Syntaxe des valeurs.............................................273
V-3 Les descriptions LCRC du questionnaire................................273
V-3.1 Syntaxe des cas..................................................273
VI Induction and Reasoning from Cases...............................................275
INTRODUCTION
Il paraîtra très paradoxal d'accorder une grande importance à l'observation
dans cette partie des sciences mathématiques qu'on appelle généralement
les mathématiques pures, puisqu'on estime couramment que l'observation
concerne seulement les objets qui impressionnent les sens. Puisque nous
devons rattacher les nombres à l'intellect pur, nous avons peine à
comprendre comment des observations et des quasi-expériences peuvent
être de quelque utilité dans l'étude de leur nature. Et pourtant, en fait,
comme je le montrerai ici par des arguments très sûrs, les propriétés des
nombres, connues aujourd'hui, ont été découvertes principalement par
l'observation et elles l'ont été bien longtemps avant d'être confirmées par
des démonstrations rigoureuses. Nombreuses sont même les propriétés des
nombres qui nous sont familières mais que nous ne sommes pas encore
capables de prouver; seule l'observation nous a conduit à les connaître.
Ainsi voyons-nous que dans la théorie des nombres, théorie encore très
imparfaite, nous pouvons fonder sur l'observation les espoirs les plus grands;
elle nous conduira à de nouvelles propriétés que nous entreprendrons de
prouver par la suite. Cette sorte de connaissance qui s'appuie seulement sur
l'observation et dont la validité n'est pas encore confirmée, doit être
soigneusement distinguée de la vérité; on dit habituellement qu'on l'atteint
par induction. Néanmoins nous avons rencontré des cas où la simple
induction conduisait à l'erreur. Aussi devons nous avoir grand soin de ne pas
accepter comme vraies des propriétés des nombres que nous avons
découvertes par observation et qui s'appuient sur l'induction seule. Nous
devons voir là l'occasion d'étudier de façon plus précise les propriétés
découvertes, de les prouver ou de les réfuter; dans les deux cas nous
apprendrons certainement quelque chose d'utile.
Euler 1 (1707-1783)
1 Euler, Opera Omnia, 1 ère série, vol. 2, p. 459, Specimen de usu observationum in mathesi pura.
2
Chapitre 0
Cette citation exprime très clairement la démarche d'expertise d'un domaine, que
ce soient les mathématiques, la biologie, ou un autre domaine.
Le sujet de cette thèse est : “Amélioration de la robustesse des systèmes d’aide à
la description, à la classification et à la détermination des objets biologiques”. En
tant que biologiste et informaticien de formation, et étant arrivé au terme de cette
thèse, je suis très sensible à ces écrits d'un mathématicien du XVIIIème siècle
certainement influencé par les recherches fructueuses des systématiciens de
l'époque. Ces idées ont été reprises par G. Pólya dans son livre “Les
mathématiques et le raisonnement plausible” (1957) dont je joins en annexe le
premier chapitre sur l'induction et l'analogie en mathématiques. En découvrant
ces écrits, je suis heureux de constater que les naturalistes et certains
mathématiciens adoptent finalement la même approche pour tirer le meilleur parti
possible de leurs expériences : leur démarche commune semble basée sur
l'observation intime des faits et un raisonnement “plausible” de type inductif et
analogique.
L'expert (mathématicien ou biologiste) qui explore son domaine bâtit des
hypothèses (ou conjectures) à partir d'interprétations de ses observations qui
indiquent les relations familières qu'il voit entre les différents objets. Aux
nombres des mathématiciens correspondent les spécimens dans une collection
pour le biologiste systématicien.
En écrivant ces relations, il aboutit à des formes de description plus ou moins
bien établies qui lui permettent de comprendre son domaine. Il peut utiliser pour
cela des manières différentes de représenter ses observations : descriptions
monographiques, dessins, photos, ces dernières étant certainement les plus
délicates pour véhiculer son expertise. Sans relâche, il confronte ses descriptions
à la réalité des nouveaux individus pour mieux les connaître. En développant sa
familiarité avec les spécimens, c'est un peu comme si l'expert utilisait les mots
de sa propre langue et était capable de «lire les spécimens» (comme le
mathématicien «lit les nombres») dans une meilleure compréhension de leur
structure [Aubé, 1991], ainsi que dans la résolution de problèmes tels que la
classification et la détermination en biologie.
Aujourd'hui, avec l'omniprésence des ordinateurs dans les laboratoires de
recherche, il devient opportun que l'informaticien coopère avec l'expert dans sa
démarche de familiarisation avec les objets de son travail journalier, en lui
procurant des outils d'aide :
1) à la modélisation de son savoir (pour structurer ses connaissances),
2) à la mise au point de descriptions d'objets comparables entre elles,
(permettant de systématiser un processus de description suivant une
même structure descriptive),
Introduction
3
3) au traitement de ces descriptions (pour élaborer un savoir compréhensif
ou en tirer des hypothèses ou des règles de décision valides).
Tous ces outils n'ont qu'un seul but pour l'expert : valoriser son expérience et
mettre à l’épreuve ses opinions. La méthode d'apprentissage exposée dans cette
thèse est une première réponse à cet objectif d'un point de vue de la
classification en biologie (qui est une démarche inductive comme expliqué au
chapitre 3).
L'autre aspect de cette aide est de permettre une meilleure transmission du savoir
de l'expert à d'autres personnes du domaine moins qualifiées que lui (ou encore
de manière plus ambitieuse au grand public). Le modèle descriptif et les
descriptions sont les deux parties obligatoires et prioritaires du savoir à
transmettre, les règles n'étant pas nécessaires. En effet, l'utilisateur du “système
expert” doit être avant tout capable de suivre le schéma mental de l'expert au
travers d'un guide du “savoir observer” (calqué sur son modèle) afin de
proposer une description qualitativement équivalente à celle de l'expert. Celle-ci,
comparée aux descriptions de l'expert, conditionne la justesse des résultats du
système expert à un problème de détermination d'une nouvelle observation.
La biologie est un domaine où foisonnent les faits particuliers difficilement
exprimables par des règles générales. C'est pourquoi un naturaliste expérimenté
n'accepte pas facilement une hypothèse. Contrairement aux mathématiques, les
objets d'observation en biologie ne sont pas issus de notre intelligence mais nous
sont donnés par la nature sans qu'on les ait choisis. Ils sont des spécimens ou
individus très divers, ce qui nécessite de la part de l'expert de nombreuses
vérifications de ses hypothèses, qui se traduisent par des adaptations successives
de la classification des spécimens. Mais les clés de détermination ou les règles
qui en résultent ne peuvent en aucun cas constituer des preuves à démontrer au
sens des mathématiques : la variabilité naturelle est trop importante et une
exception est si vite trouvée que l'on est obligé de tolérer une certaine latitude
dans les classifications naturelles.
Alors, que peut bien signifier la robustesse des systèmes de classification et de
détermination, si nous ne sommes pas capables d'apporter la preuve que les
règles apprises sont sûres et authentiques ? (autrement dit, le savoir peut-il
progresser en l'absence de certitudes ?).
Parmi les quelques réponses que l'on va développer dans le cadre de cette thèse,
il est clair en premier lieu que la biologie n'est pas un domaine sujet aux
démonstrations, du fait de la multitude des exceptions aux règles induites pour
certaines classes, exceptions qui ne sont pas nécessairement connues au moment
de leur élaboration. Il suffit de penser aux nouvelles maladies apparaissant
chaque année en pathologie végétale ou animale et qui ont des symptômes très
4
Chapitre 0
similaires à ceux de certaines autres maladies déjà répertoriées (variabilité interclasse faible).
De même, la variabilité intra-classe (intra-spécifique ou à l'intérieur d'un même
groupe biologique) pouvant être très importante, l'approche que nous trouvons
raisonnable consiste à fournir toutes les descriptions possibles de spécimens
permettant de couvrir la classe et de les identifier en leur adjoignant l'étiquette du
nom de la classe à laquelle chacun de ces spécimens appartient. Le nombre de
descriptions est proportionnel à la capacité de l'expert d'appréhender la diversité
d'une classe plus ou moins finement. Les descriptions sont en effet le reflet de
son expérience à un moment donné. Nous pensons qu'il est préférable de
multiplier les descriptions dans chaque classe, car il sera plus simple par la suite
de changer le nom de l'étiquette de la classe plutôt que de modifier la description
elle-même sans perte d'information. Il convient aussi d'éviter au maximum les
descriptions trop généralisantes (les regroupements de descriptions) lors de la
constitution d'une base de cas conforme à la couverture réelle de la classe, et de
déléguer la tâche de généralisation aux outils d'induction.
Inversement, les descriptions biologiques devraient recueillir le maximum
d'information significative (c'est-à-dire avec une précision suffisante) dans le but
de les classifier et les déterminer dans les détails. Idéalement, les descriptions
portent sur une collection d'individus physiquement répertoriés et accessibles à
de nouvelles interprétations, ce qui donne la possibilité aux descriptions de rester
toujours conformes à la réalité des individus. Notre objectif à terme est de
fournir des outils d'aide à la classification et à la détermination de
spécimens du présent et à venir, guidés en cela par le travail quotidien des
systématiciens sur des échantillons biologiques.
Ces premières conclusions sont issues de notre démarche de terrain, c'est-à-dire
que nous avons été confrontés à des données d’observation réelles et complexes
sur différents sujets (diagnostic ou détermination de maladies en pathologie
végétale à l’INRA2, classification de spécimens au MNHN3), et à des acteurs
variés qui n’ont pas la même manière d’observer et de décrire. Avant d’en arriver
à proposer des outils informatiques, il a fallu aller “au charbon” pendant deux
années pour expérimenter différentes solutions auprès des utilisateurs : systèmes
experts de diagnostic, questionnaires papiers, informatisés ensuite pour la saisie
des descriptions sur minitel ou micro-ordinateur. Le chapitre 1 de cette thèse
met en avant la démarche d’observation de l’utilisation des différentes solutions
qui est la seule manière permettant de connaître réellement le problème posé.
Nous allons montrer à chaque étape l’évolution de notre cheminement conceptuel
qui a justifié la proposition du sujet sur la robustesse des systèmes dans l'aide à
la description, la classification et la détermination d'objets biologiques. Il met en
2
3
Institut National de la Recherche Agronomique.
Muséum National d'Histoire Naturelle.
Introduction
5
valeur la demande et les besoins des utilisateurs pour des outils d’aide à
l’acquisition des connaissances.
Alors que les recherches en informatique se sont surtout axées sur la robustesse
statistique des deux aspects du traitement (classification et détermination), peu de
travaux ont été réalisés sur la robustesse des descriptions elles mêmes en
amont du traitement. Et pourtant, les bonnes descriptions conditionnent la
pertinence des règles apprises. Nous souhaitons dans cette thèse rétablir
l’équilibre en faveur de l’acquisition de bonnes descriptions à apprendre, ce qui
correspond de plus à une aspiration essentielle de la part des systématiciens.
L’acquisition des connaissances passe donc par des descriptions robustes avant
d’appliquer des méthodes de traitement adaptées pour la classification et la
détermination.
Pour notre domaine d'expérimentation en biologie, nous avons choisi de bien
dissocier le terme de détermination de celui de classification dont les
significations seront précisées au chapitre 3. Ici, la détermination concerne un
individu dont on cherche le nom de sa classe d’appartenance ce que certains
appellent une identification4 (voir § 3.4). La classification concerne plutôt un
concept dont on cherche à expliciter les caractères distinctifs à l'aide à la fois des
descriptions des individus qui appartiennent au concept et des descriptions des
individus qui, au contraire, n'y appartiennent pas. Dans ce sens, la classification
est le processus qui permet de déterminer un concept, c'est-à-dire d'expliciter les
caractères compréhensifs du concept [Petit-Robert]. La détermination possède
donc un double sens en fonction de l'objet sur lequel il porte (concept ou
individu). Nous emploierons la détermination dans le sens de détermination d'un
individu et la classification dans le sens de détermination d'un concept.
Dans ce contexte, la robustesse n’est pas statistique mais plutôt empirique,
c'est-à-dire liée aux objectifs (description, classification et détermination) et aux
conditions d’utilisation des outils (nature des utilisateurs et contexte des
données). Nous développerons cette notion de robustesse dans le chapitre 2 du
point de vue théorique et pratique et nous confronterons notre vision avec celle
des différents utilisateurs.
Définition : la robustesse des systèmes d'aide à la description, à la classification
et à la détermination en biologie est l’ensemble des facteurs qualitatifs qui
améliore l’acquisition et le traitement des connaissances sur le domaine
(compréhension, précision, cohérence, exhaustivité, redondance, fiabilité,
facilité de mise à jour, ergonomie, tolérance aux bruits). Elle donne la possibilité
de :
1) valoriser le travail de l’expert (l'aider à mieux maîtriser son domaine),
2) transmettre et utiliser ses connaissances,
4
Au sens anglo-saxon du terme.
6
Chapitre 0
3) mieux comprendre les systèmes naturels.
La robustesse empirique s’appuie sur l’observation familière du travail quotidien
de l’expert qui décrit des spécimens ainsi que sur la prise en compte des
interprétations de ses observations et de son vocabulaire (désambiguation) par
les autres utilisateurs de son système. Le concept de robustesse n’est jamais
acquis définitivement dans les domaines biologiques, il s’adapte et s’améliore
progressivement en ayant la connaissance plus intime du problème posé : il est le
fruit de l’observation du terrain.
Ainsi, pour améliorer la robustesse générale, nous avons mis au point une
méthode d'acquisition de connaissances descriptives dont nous évaluerons
l’adéquation à la démarche des naturalistes. En quelques mots, la méthode
procède ainsi :
1) observation de la diversité des spécimens et modélisation de l'observable
dans un modèle descriptif,
2) construction d’un questionnaire issu du modèle descriptif et description
de l’observé dans une base de cas,
3) induction de règles à partir de la base, détermination de nouveaux faits,
4) validation de l'observé (les cas), validation de l'observable (le modèle),
5) itération.
De plus, nous avons étudié un autre aspect de la robustesse au niveau de la
consultation, celui de déterminer un spécimen face aux non-réponses (ou
réponses «inconnu») de l’utilisateur. Des outils ont été implantés pour répondre
à ces différentes faiblesses (voir plus loin).
Pour acquérir la robustesse escomptée, l'informaticien doit être en mesure de
comprendre le domaine étudié et d'apprécier les différences conceptuelles
inévitables au niveau du vocabulaire employé par les biologistes. Le chapitre 3
est ainsi une sorte de glossaire où nous confrontons les différentes acceptions de
certains mots clés tels que la classification, l’identification, le concept, l’objet,
l’individu, etc..
La clé de voûte de notre étude est le concept de “description” : les deux
communautés de chercheurs (en biologie et en informatique) doivent se mettre
d'accord sur ce qu'il représente d'un point de vue quantitatif (nombre de
descriptions) et qualitatif (niveau des descriptions (espèces ou spécimens),
valeur des descriptions) afin que l’informaticien puisse proposer une offre
adaptée à la sémantique du domaine. Une description est par exemple
considérée comme réelle lorsqu’elle concerne un seul spécimen et virtuelle
lorsqu’elle “synthétise” les descriptions de plusieurs spécimens ou d'une
population considérée comme homogène.
Introduction
7
La difficulté est qu’il a fallu travailler à partir de l’existant dans un univers non
paramétrique : les données disponibles sont riches, complexes, hétérogènes en
qualité et en quantité. Outre leur caractère réel ou virtuel, nous sommes
confrontés à des descriptions morphologiques de spécimens “sur la table”, ou
extraites des livres anciens, ces descriptions étant parfois incomplètes.
L'incomplétude des descriptions résulte soit :
1) de l'état de l'échantillon récolté,
2) d'opinions préconçues du biologiste qui n'a pas jugé opportun
d'apporter une plus grande précision à certaines de ses observations,
3) du fait de nouveaux critères inaccessibles aux moyens techniques d'une
époque déterminée (critères microscopiques, biochimiques, génétiques,
etc.).
Après discussion avec les systématiciens, nous montrons ce que devrait être une
“bonne” description de spécimen(s) dans le chapitre 4. Une bonne description
s'appuie sur trois facultés à bien distinguer :
◊ Un savoir observer, ce qui implique de la part de l’expert de modéliser
l’observable sous la forme d’un modèle descriptif structuré,
◊ Un savoir décrire afin d’acquérir l’observé sous forme de descriptions de
qualité, à l’aide d’un questionnaire bâti selon l’architecture du modèle
descriptif,
◊ Un savoir raisonner, afin de traiter les connaissances (l’observable et
l’observé) selon un certain but : le raisonnement inductif pour obtenir une
classification (modélisation de l’observé), le raisonnement déductif et/ou
analogique pour obtenir une détermination.
Ces trois savoir-faire sont la clé de voûte de la méthode mise au point au
chapitre 2. Modéliser l’observable est la phase la plus critique pour l’obtention
des descriptions observées : nous illustrons ce constat à l’aide de notre
application sur les éponges marines.
Cette analyse faite, nous exposons le formalisme mathématique retenu pour
décrire les objets biologiques observés. Cet effort d'abstraction est nécessaire à
la compréhension du domaine pour les informaticiens qui peuvent ensuite
développer des méthodes et algorithmes efficaces tenant compte de la sémantique
du domaine. Le formalisme retenu est décrit au chapitre 5. Il est emprunté à
Diday (1987) et a été adapté pour traiter nos descriptions complexes sous forme
d’objets de synthèse booléens. Il met en valeur la nature composite
(dépendante), plus ou moins précise (spécialisable) et itérative (multiinstanciable) des objets dans les descriptions naturelles. Nous n’utilisons pas les
8
Chapitre 0
objets modaux du fait que nous décrivons plutôt des spécimens que des espèces
et que les experts préfèrent fonder leurs décisions sur des valeurs descriptives
tranchées (ils n’ont pas d’état d’âme pour juger des spécimens !).
Les “bonnes” descriptions de spécimens sont déjà un premier objectif à résoudre
pour constituer un système robuste. Il s’agit de représenter et de stocker dans
des fichiers informatiques les “images” les plus fidèles possibles des individus
étudiés. Ces données descriptives sont instanciées à partir du questionnaire et du
modèle descriptif et peuvent alors être transmises telles quelles ou bien traitées
par des algorithmes pour exploiter le savoir qu’elles véhiculent.
Pour que la méthode exposée plus haut apporte la robustesse escomptée, il faut
tenir compte de la qualité des acteurs (spécimen(s), expert(s), utilisateur(s),
outils d'acquisition de connaissances, algorithmes d'apprentissage) pouvant
intervenir aux différentes étapes de la chaîne, de manière à augmenter la qualité
des descriptions et des règles apprises. En outre, contrairement au naturaliste
amateur qui cherche à justifier son modèle par des exemples conformes, l'expert
ne dédaigne pas la recherche de contre-exemples pour invalider ses hypothèses.
Cette démarche scientifique de remise en cause systématique du modèle
descriptif et des règles apprises permet à l'expert d'avancer dans sa recherche de
règles plus vraisemblables qui éliminent les contre-exemples (le perfectionnisme
du chercheur !). Elle implique néanmoins que l'informaticien lui fournisse des
outils d'aide à la mise à jour de ses connaissances, notamment pour assurer la
cohérence des anciennes descriptions (certains caractères ne sont plus valides
dans le nouveau modèle) ou leur complétude (quand de nouveaux descripteurs
sont apparus dans le modèle).
Dans cette thèse, nous avons réalisé une grande partie de ces outils permettant de
constituer une chaîne complète depuis la modélisation jusqu'au traitement des
connaissances descriptives. En amont de la phase de traitement, nous avons
implanté les deux premiers aspects de la méthode (acquérir l’observable dans un
modèle descriptif, acquérir l’observé dans un questionnaire) avec un outil baptisé
HyperQuest, que nous présentons au chapitre 6. L’originalité réside dans le
choix de l’approche hypertexte qui permet de respecter une étroite
correspondance entre les objets conceptuels décrits au chapitre 5 (objet de
synthèse, assertion composite, horde composite, objet classifié, objet muni de
méthodes ou de propriétés) et les entités hypertextes (pile, fond, carte, bouton,
champs). Cela permet de s’affranchir d’une application particulière et d’atteindre
un niveau de généricité inter-applications, de manière à construire
automatiquement un questionnaire à partir de la connaissance du modèle
descriptif. Ce questionnaire peut être ensuite personnalisé et illustré par l’expert
lui-même très facilement de manière à procurer à l’utilisateur les moyens de
“savoir observer” et “savoir décrire”. L’ergonomie et la convivialité sont alors
des paramètres importants de la robustesse du système pour acquérir des
descriptions de qualité.
Introduction
9
Ensuite, dans notre méthode opérationnelle, nous avons choisi deux modes de
traitement des descriptions en fonction des objectifs poursuivis que nous
formalisons au chapitre 7. Nous sommes partis de l’algorithme KATE
[Manago, 1991] qui construit une classification à partir des connaissances
structurées du modèle observable et des descriptions observées. En voulant
utiliser cette classification comme une clé de détermination, on s’est aperçu que
le résultat de la consultation était moins fiable face à de nouvelles observations
incomplètes. Ceci est du au fait que l’on raisonne de manière déductive à partir
d’un arbre de décision (une caractérisation des descriptions) dans un contexte
empirique, et que les descriptions initiales ne sont plus intégralement accessibles
par ce raisonnement.
Nous avons donc développé un processus particulier de raisonnement
analogique basé sur la comparaison de toutes les descriptions entre elles et que
nous avons baptisé CaseWork. Mais au lieu de comparer les exemples entre
eux en utilisant une mesure de similitude globale et polythétique5 coûteuse pour
le traitement (comptage des attributs par rapport aux exemples), nous préférons
comparer les attributs entre eux en reprenant la même mesure de calcul
d'entropie que pour l'induction avec KATE (c'est-à-dire compter les exemples
par rapport aux attributs). Cette dernière méthode est monothétique6. Elle est
plus facile à justifier et à expliquer à l'utilisateur, qui peut connaître les attributs
ordonnés en fonction de leur pouvoir de séparation des exemples. CaseWork
produit des résultats de détermination par comparaison meilleurs que KATE en
appliquant le principe du raisonnement à partir des cas, c'est-à-dire à partir de la
base d'expériences passées. En effet, CaseWork tient compte de toute la base
d'exemples, contrairement à la détermination déductive avec KATE qui utilise un
arbre de décision extrait à partir de la base de cas. Notons que ce “savoir
raisonner” n'est pas nouveau dans les systèmes de détermination en biologie. On
les trouve dans la littérature sous forme de clés à accès multiple ou encore sous
forme de programmes de détermination polyclaves [Pankhurst, 1991]. De
même, en analyse des données, des mesures de proximité expriment par un
nombre les ressemblances ou les dissemblances existant entre toutes les variables
qui caractérisent les exemples pris deux à deux [Chandon & Pinson, 1981]. Ces
indices sont utilisés pour des problèmes de classification ou de catégorisation
(voir § 3.3.2).
Inversement, le raisonnement par cas (ou encore à partir de cas) utilise la mesure
de similarité en phase de détermination : c'est aussi un processus de
remémoration et d'adaptation en fonction du contexte de la nouvelle observation
[Lieber, 1993]. L'intérêt que nous lui portons tient à son aspect complémentaire
5
Evaluant les ressemblances et différences entre exemples sur l'ensemble des attributs (méthode
d'appariement).
6 Basée sur la distribution relative des exemples par rapport aux valeurs possibles de chaque
attribut pris séparément (avec élimination des exemples non conformes à la valeur choisie).
10
Chapitre 0
par rapport à l'induction. Un projet d'intégration des deux approches est en
cours (entre 1992 et 1995) dans le cadre du projet INRECA7 (ESPRIT III n°
6322) dont nous joignons en annexe 5 le descriptif sous forme d'un article paru
à EWCBR-93, le premier congrès sur le raisonnement par cas en Europe.
Les limites et mérites respectifs des deux approches seront évalués
expérimentalement sur les descriptions des éponges marines fournies lors de
cette thèse, ainsi que sur d'autres applications industrielles (diagnostic de
pannes) qui ne nous concernent pas directement.
Mais pour l'heure en attendant ces résultats, nous affirmons que pour l'objectif
de classification en biologie, l'expert peut utiliser la méthode inductive avec
KATE afin de découvrir des conjectures par caractérisation des classes des
exemples (sous forme d'arbre ou de règles de décision). La plausibilité de ces
hypothèses peut ensuite être testée directement par l'expert en examinant les
règles apprises, ou par détermination de nouveaux individus (par déduction à
partir de l'arbre).
Si l'objectif est uniquement la détermination d'objets (le diagnostic par exemple),
il est préférable d'utiliser un outil de recherche par comparaison comme
CaseWork qui tient compte de toutes les descriptions et permet d'éviter les
impasses dues à la rencontre d'observations localement impossibles (échantillons
incomplets, mal conservés, etc.).
Dans tous les cas, une justification des erreurs de classement (voir § 3.3) peut
être mise en évidence et révéler l'insuffisance de la base d'exemples (l'observé)
ou du modèle descriptif (l'observable). A tout moment, l'expert doit être capable
de trouver les raisons des “fautes” commises dans les descriptions. Il devra
utiliser les outils de manière interactive, ce qui est une condition d'acceptabilité
du service rendu par l'informatique. Les autres conditions sont liées aux moyens
mis en œuvre pour acquérir ces descriptions avec l'éditeur de modèle descriptif
et de cas (le questionnaire). Ils doivent être à la fois facile d'accès (souples et
ergonomiques), scientifiquement rigoureux dans la démarche de description
(logique de description, cohérence entre l'observable et l'observé) et permettre
d'exploiter toute la richesse informative du domaine naturel (liaisons intrinsèques
entre caractères, exhaustivité et précision des données descriptives).
Ce n'est que par cet effort de compréhension de la complexité d'un domaine
naturel que l'informaticien est un interlocuteur utile pour l'expert : il sera disposé
à adapter le modèle à la réalité des connaissances et non l'inverse.
7
INduction and REasoning from CAses.
I
LE CHEMINEMENT CONCEPTUEL
Une fois fixés les objectifs et le cadre de la démarche souhaitable, nous
exposons dans ce chapitre le cheminement conceptuel qui nous a amené à choisir
le thème de la robustesse des systèmes d'aide à la description, à la classification
et la détermination des objets biologiques pour cette thèse.
L'élaboration de notre approche est le fruit d'une démarche expérimentale
bénéficiant de plusieurs expériences sur le terrain “en vraie grandeur”. Nous
retraçons maintenant l'historique de celles-ci afin de faire ressortir les points
importants à retenir pour justifier notre méthode d'acquisition des connaissances
et mettre en valeur notre conception de la robustesse.
1.1 Les systèmes experts à l'INRA
L'INRA (Institut National de la Recherche en Agronomie) a développé quinze
systèmes experts spécialisés dans le diagnostic des maladies des plantes : le
projet SEPV 1 [Le Renard, 1988]. Par exemple, TOM est le premier système
expert en agriculture de cette série [Blancard et al., 1985]. Il détermine les
maladies des tomates sur ordinateur ou Minitel à partir de la description des
symptômes par les agriculteurs ou techniciens agricoles. En 1986, tous ces
systèmes fabriqués par un couple “cogniticien-expert” étaient à l’état de
prototypes avancés, et l’INRA a alors décidé de les tester sur le terrain afin
d’évaluer leur fiabilité entre les mains des utilisateurs de la profession agricole.
Étant alors en troisième année d’une école d’ingénieurs en agriculture (l’ISARA :
Institut Supérieur d’Agriculture Rhône-Alpes), et attiré par les systèmes experts
sans avoir la compétence informatique pour en développer, nous avons proposé
un stage de longue durée à l’INRA sur le thème de l’utilisation, afin de
confronter l’offre et la demande. Le but était d’analyser l’impact socioéconomique des systèmes experts dans le milieu agricole et de proposer des
solutions d’adaptation de ces systèmes à leurs utilisateurs. Nous avons pu ainsi
expérimenter pendant 10 mois cinq systèmes experts sur le terrain (le blé, la
betterave, le pêcher, la tomate et l’œillet) et proposer une étude plus approfondie
sur le système œillet [Conruyt, 1986]. Lors d’un mémoire de fin d’études de
l’ISARA en 1987, dans le cadre d’un autre projet sur l’apprentissage
automatique des maladies de la tomate (INSTIL § 1.2), nous avons pu mettre au
point par écrit une méthode d’acquisition des connaissances descriptives en
1
Systèmes Experts en Pathologie Végétale.
12
Chapitre 1
pathologie végétale qui tient compte des différents intervenants dans la chaîne du
diagnostic [Conruyt &Piaton, 1987]. Ces écrits ont rassemblé nos premières
spécifications pour des travaux sur la robustesse.
1.1.1 Bien définir la cible des systèmes experts
Une connaissance du terrain pour établir quelle est la chaîne du diagnostic pour
chaque culture est primordiale. Cette chaîne fait intervenir trois catégories de
personnes avec des niveaux de raisonnement et de souhait différents :
1.1.1.1 Les experts
Ils reçoivent une grande quantité d'échantillons à chaque campagne culturale
(ex : 300 cas pour la tomate en 1987), ils raisonnent principalement à partir des
symptômes sur la plante. Leur vision des symptômes s'effectue à une échelle
d'observation individuelle. Elle est variée et pointue, car s'appuyant sur des
observations à la loupe binoculaire et au microscope. Cette vision leur fait
adopter un vocabulaire très spécifique et difficile à communiquer aux autres
utilisateurs. Par exemple, le concept de nécrose porte une information non
explicitée liée au dessèchement des tissus atteints, à leur couleur brune et à leur
limite bien distincte, ceci vu à la loupe binoculaire [Blancard, 1988].
Les experts sont intéressés par tous les outils d'aide qui leur permettent
d'accélérer le diagnostic et de le rendre plus fiable, de se décharger du travail de
routine (filtrage des cas “sans intérêt”). Ils recherchent aussi tout ce qui peut leur
permettre d'approfondir leurs connaissances, ou d'élargir leur domaine de
compétence au delà de leur propre spécialité.
1.1.1.2 Les techniciens ou conseillers agricoles
Contrairement aux experts, ils sont constamment en contact avec les agriculteurs
par les suivis d'exploitation, le recueil d'échantillons de plantes malades. Ils ont
une meilleure connaissance de l'itinéraire technique de la culture et du contexte
socio-économique de l'exploitation. Leur responsabilité vis à vis de l'exploitant
est importante puisque ce sont eux qui donnent l'ordonnance (nature du produit
de traitement, dose, mode d'application). Ils ont donc un mode de raisonnement
plus global au niveau du problème dans la culture.
Leurs souhaits portent non seulement sur l'amélioration de leurs connaissances,
mais aussi sur des outils d'aide et d'orientation. Il leur importe en effet, en cas
de doute, de pouvoir faire confirmer leur diagnostic par un expert, à moins de
disposer eux-mêmes d'outils permettant d'affiner leurs résultats. Mais leur
Le cheminement conceptuel
13
préoccupation majeure n'est pas tant l'obtention du diagnostic que son
utilisation : que faut-il conseiller de faire à l'agriculteur demandeur ?
1.1.1.3 Les agriculteurs
Si les techniciens raisonnent en terme de potentiel de dégât causé par la maladie,
les agriculteurs la considèrent comme un préjudice non seulement à déterminer et
localiser (espace et temps), mais aussi à quantifier. Comme cela a une incidence
directe sur leur revenus d'exploitation, ils raisonnent encore plus globalement en
terme de préjudice pour la commercialisation. De ce fait, ils sont très exigeants
vis à vis du conseil en protection des cultures.
Leurs demandes se situent à différents niveaux. Ils voudraient pouvoir
déterminer eux-mêmes, immédiatement, les maladies les plus courantes ; quand
ils doivent passer par la chaîne complète du diagnostic, ils souhaitent recevoir
rapidement les résultats. Ils veulent connaître l'opportunité des interventions
curatives : savoir si l'atteinte à leur culture est grave, et bénéficier d'outils d'aide
aux traitements, intégrant les critères économiques et les données de leur
exploitation. Enfin, ils souhaitent aussi des renseignements sur la raison de
l'installation de la maladie dans la culture de manière à prendre des mesures
prophylactiques ou préventives dès la prochaine campagne.
1.1.1.4 Conclusion
Tous ces intervenants sont des consultants potentiels des systèmes experts de
l'INRA. Il faut donc prendre en compte leur grande hétérogénéité de niveaux
techniques, et la variété des utilisations qu'ils comptent faire du diagnostic. Dans
SEPV, il a fallu gérer l'important écart qui existe entre les experts qui peuvent
fournir l'expertise, et les nombreux techniciens et agriculteurs qui peuvent y
avoir accès. Le problème de l'adaptation des niveaux, pris en charge par les
cogniticiens (ces personnes construisant les bases de connaissances), s'est révélé
encore plus central qu'il ne l'avait été perçu a priori. Il n'y a pas qu'un modèle
d'utilisateur à prendre en compte. Concilier les exigences d'un outil de qualité
professionnelle et celles d'un produit de type grand public complique
considérablement un projet de conception, de développement et de validation.
1.1.2 Bien définir les objectifs et les moyens
L'objectif de SEPV était de construire des systèmes experts de détermination des
maladies. L'acte de diagnostic, essentiellement visuel, consiste à déduire la
présence d'une maladie de l'observation de symptômes, manifestations plus ou
moins caractéristiques de la maladie. Le savoir-faire de l'expert s'appuie donc
sur deux capacités à reproduire :
14
Chapitre 1
1.1.2.1 Savoir observer
Il faut savoir faire un tour rapide des différents symptômes, pour focaliser
rapidement l'observation sur les plus “pertinents”, en faisant un tri pour ne
garder que les éléments les plus caractéristiques (par exemple, ne pas tenir
compte des symptômes sans signification, ou ne s'intéresser qu'au meilleur
stade d'évolution, ou encore “sérier” les problèmes quand on s'aperçoit que
plusieurs maladies sont présentes en même temps, etc.).
La mémoire visuelle de l'expert joue un rôle essentiel, lui permettant de se
rappeler “qu'il a déjà vu ça quelque part”, et de remonter à des cas analogues ou
plus typiques.
Il est particulièrement difficile, voire impossible, de déceler une “méthode” dans
la façon de procéder de l'expert, tant il semble que chaque observation de plante
soit menée différemment des autres. Le rôle de l'expérience joue en effet à fond,
en particulier l'expérience à court terme (référence à des cas analogues vus il y a
peu de temps : l'expert fait des comparaisons “en mémoire vive”).
1.1.2.2 Savoir raisonner
En simplifiant, on pourrait dire que l'expert interprète les symptômes en termes
de caractéristiques de maladie, ce qui lui permet tout à la fois de se focaliser vers
un petit nombre de maladies possibles (qu'il va falloir confirmer) et de ne pas
prêter attention à d'autres maladies (ce qui revient à les éliminer de façon
implicite).
C'est cette démarche complexe d'élimination et de confirmation d'hypothèses,
souvent entrecoupée de remises en cause et de retours en arrière, qui permet de
parvenir à un diagnostic. Dans les cas où aucun élément suffisamment
discriminant n'a pu être relevé, il est nécessaire de recourir à des moyens
complémentaires (mise en culture par exemple), pour pouvoir préciser le résultat.
Car le résultat du diagnostic n'est pas toujours unique et certain, et il se trouve de
fait souvent accompagné d'un commentaire en cas de doute.
Cette manière de diagnostiquer, issue presque entièrement de l'expérience,
correspond à un savoir-faire et pas du tout à la connaissance telle qu'on peut la
trouver formalisée dans les ouvrages spécialisés. Nous sommes dans un
domaine qui se laisse difficilement ramener à un ensemble de “lois”, où
l'incertain et l'approximatif s'insinuent partout.
Le cheminement conceptuel
15
1.1.2.3 Conclusion
Il sera important qu’un système de détermination souhaitant reproduire le
savoir-faire de l’expert tienne compte de l’application de ces deux capacités :
savoir observer et savoir raisonner. Plus tard, grâce aux techniques
d’apprentissage, nous apprendrons qu’une troisième qualité intermédiaire entre
l’observation et le raisonnement est primordiale : c’est la capacité à décrire
les observations. Les descriptions permettent la liaison entre l’observation et
le raisonnement. Elles s’appuient sur l’élaboration d’un questionnaire tenant
compte à la fois d’un modèle d’observation de l’expert (modèle descriptif de
l’observable indiquant quoi observer) et du niveau de perception de ces
connaissances par les utilisateurs (adaptation au vocabulaire et à la manière
d’observer des utilisateurs). En effet, on avait tendance à oublier qu’un système
expert était fait pour être diffusé auprès d’autres utilisateurs que les experts.
1.2 Le projet INSTIL
A coté de la méthode de constitution d'un système expert par transmission de la
connaissance, qui est celle qui a été suivie dans SEPV en mettant en place la
chaîne “expert(s) - cogniticien - système expert - utilisateurs”, nous avons
expérimenté une autre méthode visant à améliorer le processus d'acquisition des
connaissances. Le problème des systèmes experts construits selon la technique
classique est qu'ils nécessitent beaucoup de connaissances descriptives : les
règles doivent être maintenues continuellement avec l'apparition de nouvelles
maladies et de nouveaux symptômes.
INSTIL signifie “Integrating Numeric and Symbolic Techniques In Learning”.
Le but de ce projet européen entre 1986 et 1989 (ESPRIT I n° 1063) a été de
construire “automatiquement” un système expert de diagnostic des maladies de la
tomate à l'aide de techniques d'apprentissage numériques et symboliques.
L'idée était de comparer l'approche classique d'élicitation des connaissances
avec celle d'extraction automatique de règles à partir d'exemples. Chaque
exemple est constitué de la description d'une plante malade et du diagnostic
correspondant de la part de l'expert. Du point de vue mathématique, un
exemple est un couple (d(w), c) ou w est un individu observé (la plante malade
par exemple), d(w) est sa description associée, et c est le nom de la classe
auquel l’individu appartient (le diagnostic correspondant). La description peut
être formalisée de différentes manières selon la complexité de l’individu à décrire
(voir chapitre 4).
Les algorithmes d'apprentissage étaient utilisés pour aider à la classification des
maladies par méthode inductive (les caractériser par un arbre ou des règles de
16
Chapitre 1
décision), puis à la détermination de nouvelles observations2 (par méthode
déductive). Ces algorithmes sont les suivants :
1.2.1 Neddie
Neddie est un descendant d'ID3 [Quinlan, 1983]. A partir d'exemples de
plusieurs concepts, il fabrique un arbre de décision qui sépare les concepts de
manière efficace. En termes de stratégies de recherche, Neddie effectue une
recherche en gradient (“divide and conquer”, pas de retour en arrière) du plus
général au plus spécifique en utilisant un critère d'évaluation numérique appelé
gain d'information qui est fondée sur la mesure d'entropie de Shannon (1949).
Neddie possède les fonctionnalités permettant de transformer un arbre de
décision en règles [Corlett, 1983] ou encore l'arrêt de la construction de l'arbre
avant son terme en utilisant le test du χ 2 quand toutes les variables candidates à
un nœud (les attributs3 explicatifs) sont indépendantes de la variable décision (la
maladie à expliquer). Néanmoins au départ, Neddie était limité dans son mode de
représentation des connaissances et n'utilisait pas de théorie initiale du domaine :
chaque exemple était décrit dans une ligne d'un tableau de données
(représentation plane ou “attribut-valeur”) sans possibilité d'introduire de logique
d'ordre 1 (avec variables) dans une description. En outre, cette connaissance “àplat” ne permet pas de prendre en compte les connaissances de bon sens entre les
différents composants d'une description et issues d'une modélisation initiale du
domaine [Manago & Conruyt, 1989]. Nous verrons avec KATE (§ 1.4) que ces
possibilités sont impératives pour exploiter la richesse des domaines vivants que
nous voulons traiter.
1.2.2 Main
Main est une implantation partielle de l'algorithme de l'étoile AQ [Michalski et
al., 1981] version 11 [Michalski, 1983]. Prenant des exemples positifs et
négatifs d'un concept (les exemples négatifs 4 sont ceux qui n'appartiennent pas
au concept), il génère un ensemble de descriptions conjonctives qui couvrent
tous les exemples positifs et un nombre prédéfini par l'utilisateur d'exemples
négatifs CE [Manago, 1988].
L'algorithme commence par sélectionner au hasard un exemple e1 (le noyau)
dans l'ensemble des exemples positifs. La liste des attributs de l'exemple est
ensuite généralisée à l'aide de règles de généralisation (règle de l'oubli, règle
2
L’observation est définie mathématiquement par le couple (d(w), Ø) du fait que le nom de la
classe n’est pas connu et reste à déterminer.
3 Dans cette thèse, la sémantique choisie pour le mot “attribut” est celle du domaine de
l’intelligence artificielle ou de l’analyse des données, c’est à dire la “variable” (ex : couleur,
forme, taille, etc.) et non pas dans le sens de “ce qui est attribué à un individu” que nous
appelerons la “valeur”.
4 Ou contre-exemples du concept.
Le cheminement conceptuel
17
d'élargissement des valeurs possibles, etc.) et en tenant compte d'heuristiques
pour contrôler la recherche multi-directionnelle.
G(e1, CE) est appelé l'étoile de e 1 et représente l'ensemble de toutes les
descriptions les plus générales qui couvrent le noyau (complétude) et ne couvrent
pas les exemples négatifs (cohérence). Comme cela représente un nombre trop
élevé de descriptions dans la pratique, l'algorithme effectue une recherche en
faisceau pendant la génération de l'étoile pour produire une étoile bornée G(e1,
CE/m) ne contenant que les m meilleures descriptions selon certains critères et
seuils de tolérance fixés au départ. Les exemples positifs qui ne sont pas
couverts par l'étoile sont éliminés et le processus de départ est répété jusqu'à ce
que tous les exemples soient couverts.
Contrairement à Neddie, Main utilise une stratégie hybride (en faisceau)
ascendante guidée par les données (lors du choix d'un exemple) et descendante
guidée par un modèle (lors de la génération de l'étoile bornée). C'est un système
à la fois numérique et symbolique qui exploite une représentation plus ou moins
orientée objets : VL2 (Variable-Valued Logic) comme sous-ensemble de la
logique du premier ordre [Michalski, 1980]. Main ne savait pas traiter les
attributs à valeur numérique.
1.2.3 Maggy
Maggy est une implantation de l'algorithme d'appariement structurel et un
descendant du système Agape [Kodratoff & Ganascia, 1986]. Il prend un
ensemble d'exemples positifs et produit les généralisations conjonctives les plus
spécifiques [Michalski, 1983]. Maggy utilise une représentation des
connaissances fondée sur les frames permettant de décrire les observations (les
observés) sous forme d’objets structurés ainsi que d’autres connaissances
initiales de bon sens sur le domaine (hiérarchies d’objets, propriétés déductives,
etc.) constituant le modèle descriptif (l'observable). Maggy peut être utilisé pour
trouver toutes les généralisations conjonctives possibles d’un ensemble
d’exemples (étant donné un modèle descriptif) ou sélectionner une généralisation
fondée sur la quantité d'information perdue pendant la procédure. Considérons
l’exemple suivant :
E1 : [objet1 <classe pourriture> <couleur blanc>] & [objet2 <classe tache> <couleur brun>]
E2: [objet1 <classe pourriture> <couleur jaune>] & [objet2 <classe tache> <couleur blanc>]
En faisant l’hypothèse qu’il y a une taxonomie des couleurs et que les
pourritures et les taches sont des sortes de symptômes, Maggy extrait la
généralisation “il y a une pourriture de couleur claire et une tache” plutôt que “il y
a un symptôme blanc et un autre symptôme”. Ceci provient du fait que davantage
d’information est perdue en produisant la seconde généralisation [Manago,
1986]. Maggy renvoie à la fois la généralisation et une mesure de la quantité
d’information perdue pendant le processus de généralisation.
18
Chapitre 1
Maggy fonctionne en logique du premier ordre et utilise une stratégie de
recherche du meilleur d'abord guidée par les données : il combine la recherche en
gradient et en profondeur d'abord (tous les chemins sont explorés, mais les plus
prometteurs le sont en premier). C'est un système symbolique.
1.2.4 Conclusion
Comme le montrent ces différents algorithmes, le projet INSTIL visait à réunir
différents modes de raisonnements par inférence (induction, déduction), des
stratégies de recherche multiples (recherches ascendante, descendante, en
profondeur, en largeur d'abord), des méthodes d'induction différentes
(numériques, symboliques) et des modes de représentation divers (logique des
propositions, prédicats).
Dans ce projet, notre rôle a été double :
D’une part, nous avons pu fournir les exemples en amont de la phase de
traitement par ces algorithmes ; grâce à la connaissance des utilisateurs finaux,
nous avons pu ainsi proposer dans le cadre d’un mémoire de fin d’étude ISARA
[Conruyt & Piaton, 1987] une méthode d’acquisition des exemples à l’aide d’un
questionnaire interactif adaptée au domaine de la pathologie végétale. C’est cette
méthode qui a servi de base à la construction du projet de thèse afin de réaliser
pratiquement les outils permettant d’acquérir les connaissances initiales aux
traitements. Ainsi, l’expérience de deux années d’utilisateur des systèmes
experts sur le terrain a permis de comprendre la difficulté du “savoir observer et
décrire” des différents intervenants dans la chaîne du diagnostic et de passer
d’une proposition sur papier à une réalisation informatique concrète.
D’autre part, il nous restait à comprendre les mécanismes de raisonnement des
logiciels d’apprentissage automatique (induction, déduction) pour les comparer
au “savoir raisonner” de l’expert, ceci afin de concevoir un système de
détermination globalement plus fiable. Comprendre le traitement des exemples
a été donc l’objectif poursuivi pour pouvoir établir des comparaisons entre les
différents programmes à la lumière de la qualité des descriptions fournies.
N’ayant pas au départ les connaissances informatiques suffisantes, les différents
algorithmes ont été regardés comme autant de boites noires et nous avons
analysé les résultats en sortie par rapport aux données en entrée. Nous avons
ainsi pu constater une nouvelle fois l’importance de la qualité des
descriptions en entrée, ce qui justifiait de consacrer nos efforts futurs sur cet
aspect de l’acquisition des connaissances.
Le cheminement conceptuel
19
1.3 Des systèmes experts à l'apprentissage
Dans ce paragraphe, nous allons évoquer quelles sont les relations entretenues
entre les deux approches que nous avons expérimentées, c'est-à-dire celle à
l'INRA avec les systèmes experts dits “de première génération” et celle en
apprentissage numérique symbolique dans le cadre d'ESPRIT (projet INSTIL).
Nous résumons d'abord les avantages et inconvénients des systèmes à base de
connaissances par rapport aux programmes informatiques classiques (§ 1.3.1).
Cette première comparaison est plutôt théorique. Elle est suivie d’un bref exposé
(§ 1.3.2) sur les tentatives des chercheurs en informatique pour faire face au
problème de l’acquisition des connaissances soulevé par l’emploi des règles de
déduction dans les systèmes experts de première génération. Les systèmes
experts de seconde génération mettent l’accent sur l’acquisition des
connaissances de l’expert par le cogniticien du point de vue de la simulation de
son raisonnement à l’aide de modèles.
Or, la modélisation du raisonnement demande d’abord la compréhension des
concepts sur lesquels on raisonne. En privilégiant plutôt les descriptions que les
règles de détermination, nous allons montrer que l’apprentissage inductif à partir
d’exemples est mieux adapté à la logique de fonctionnement de l’expert. Du
point de vue pratique, nous n’oublions pas cependant qu’un système expert,
même s’il est construit par apprentissage inductif, est utilisé par d’autres
personnes que l’expert. L’adaptation des connaissances à l’utilisateur final a fait
l’objet de recherches pendant deux années d’utilisation des systèmes experts sur
le terrain. Nous en donnerons un aperçu au § 1.3.3. Enfin, en comparant les
résultats d’INSTIL et ceux de SEPV au § 1.3.4, nous verrons que la qualité des
descriptions à traiter par apprentissage est primordiale, ce qui nécessite la
conception d’un modèle descriptif correctement défini.
1.3.1 Les systèmes experts
Les systèmes experts ou encore systèmes à base de connaissances sont des
programmes informatiques qui ont pour but de reproduire le raisonnement d'un
expert humain dans un domaine bien précis, afin de résoudre un problème
donné de manière aussi performante.
Du point de vue de la méthode, alors que dans les systèmes informatiques
traditionnels le programme récolte toute l'information sous forme procédurale,
dans les systèmes experts l'information spécifique au domaine est déclarée dans
une base de connaissances heuristiques (les règles de raisonnement) et sont
séparées de leur mécanisme d'interprétation (le moteur d'inférences). Pour une
explication de l'anatomie des systèmes experts de première génération,
le lecteur pourra se reporter à [Laurière, 1982], [Cordier, 1984] ou [Bonnet,
1984].
20
Chapitre 1
La façon classique permettant d'acquérir toutes ces connaissances est celle qui
utilise le cogniticien, spécialiste du recueil, de la représentation et de
l'implantation sur ordinateur des connaissances expertes. La transmission
(l'élicitation) des connaissances nécessite une méthodologie bien définie :
1) prendre un expert reconnu, motivé et disponible,
2) se familiariser avec le vocabulaire du domaine,
3) déterminer par interview les modalités du raisonnement de l'expert,
4) écrire la base de connaissances,
5) faire valider la base par l'expert, puis d'autres experts,
6) faire valider dans le milieu cible.
Les avantages de cette démarche sont bien connus :
◊ les règles énoncées donnent une meilleure accessibilité au non informaticien,
◊ les facultés explicatives et justificatives sont directement reliées aux
informations que l'utilisateur a lui-même rentrées,
◊ L'expert, aidé ou non du cogniticien, peut lui-même corriger et mettre à jour
les connaissances introduites, etc..
Néanmoins, malgré des réussites remarquables telles que MYCIN en médecine
(maladies infectieuses) [Shortliffe, 1976], DENDRAL en chimie (structures
moléculaires) [Buchanan & Feigenbaum, 1978], ou encore PROSPECTOR en
géologie (prospection minière) [Duda et al., 1979], il faut bien reconnaître que la
mise au point d'une base de connaissances (le recueil d'expertise) reste très
délicate :
◊ l'expérience de l'expert s'est forgée à son insu, elle ne s'explicite pas
facilement hors contexte,
◊ le formalisme des règles ... alors ... n'est pas toujours adapté à son
raisonnement, ainsi qu'au traitement des exceptions (multiplication des
prémisses), ou encore aux capacités d'explication (la trace des règles ne
suffit pas),
◊ la modification d'une grosse base de règles est difficile à gérer (maintien de
la cohérence), et coûteuse (faisant intervenir le cogniticien),
◊ les performances se dégradent au moindre oubli et cela donne une image
néfaste des compétences du système expert à ses utilisateurs,
◊ il n'existe pas de méthodologie prédéfinie d'extraction des connaissances,
etc..
Toute la question est de savoir comment faire pour acquérir le raisonnement de
l'expert et le modéliser sous forme de règles de production. Feigenbaum (1981)
a identifié cette tâche d'élicitation comme le “goulet d'étranglement” de
Le cheminement conceptuel
21
l'acquisition des connaissances pour construire des
opérationnels.
systèmes experts
1.3.2 Acquérir les connaissances de l'expert
Un système expert n'est valable que s'il contient les connaissances les plus
récentes, précises, justes, complètes et détaillées des meilleurs experts, et que si
une remise à jour régulière de cette connaissance est réalisée.
Certains chercheurs ont essayé de mieux formaliser la nature même des
connaissances du point de vue de la philosophie [Smith & Medin, 1981], de la
psychologie et de la linguistique [Rosch et al., 1976], [Schank, 1982], [Kleiber,
1990], conduisant les chercheurs en IA à utiliser d'autres formes de
représentation des connaissances que la forme déclarative des règles de
production. Ce sont par exemple les graphes conceptuels de Sowa (1984), les
descriptions à base de frames [Minsky, 1975], les scripts [Schank & Abelson,
1977], les procédures (méthodes, démons) attachés aux objets [Roberts &
Goldstein, 1977], les hiérarchies d'objets et les mécanismes d'héritage
[Brachman & Schmolze, 1985], [Rechenmann, 1988], les objets composites
[Stefik & Bobrow, 1986], [Ducourneau, 1989]. Pour obtenir une description de
ces langages de frames au sein des langages à objets, le lecteur peut se référer à
Masini [Masini et al., 1989]. Ils ont été conçus pour aider les cogniticiens à
modéliser une connaissance causale, c'est-à-dire reposant sur la compréhension
des effets et des causes sous-jacents au fonctionnement du système expert
[Giarratano & Riley, 1989]. Ainsi, il est possible de modéliser des
connaissances de structure, de fonctionnement et de comportement des objets.
Consécutivement, d'autres chercheurs se sont focalisés sur le processus de
l'acquisition des connaissances lui-même afin de mettre au point une
méthodologie de modélisation des connaissances et de développement de
systèmes experts pour en faciliter la validation et la maintenance.
Par exemple, pour les systèmes de diagnostic, l'approche consiste à représenter
les connaissances de l'expert sur le comportement des composantes élémentaires
du système à maintenir [Courtois, 1990]. Cette approche dite avec
“connaissances profondes” caractérise les systèmes experts de seconde
génération. La description des objets de la connaissance est réalisée par une
décomposition structurelle et fonctionnelle et se formalise par l'intermédiaire de
modèles physiques, comportementaux [Davis, 1984] et de fonctionnement
[Milne, 1987].
Par ce moyen, le cogniticien est amené à structurer la connaissance à différents
niveaux pour le problème du diagnostic tout en utilisant les acquis des langages
de représentation des connaissances décrits plus haut. De ce fait, la démarche est
22
Chapitre 1
très proche de la méthodologie KADS [Wielinga et al., 1992b] de modélisation
des connaissances.
Dans KADS, quatre niveaux (stratégie, tâche, inférence, et domaine) sont définis
pour expliciter les compétences de l'expert (son modèle d'expertise) : le niveau
stratégie permet de décrire les objectifs opérationnels de son action (conception,
simulation, planification, diagnostic, etc.), le niveau tâche spécifie les
raisonnements nécessaires qu'il adopte pour atteindre les buts, le niveau
inférence permet de choisir les structures inférentielles dans une bibliothèque
pour accomplir les tâches, et le niveau domaine décrit les concepts et relations
utilisés par les autres niveaux [Kirsch et al., 1993].
Par rapport aux travaux des systèmes experts de seconde génération qui se sont
surtout intéressés à la modélisation des connaissances de résolution de
problèmes [Clancey, 1985], [Breuker & Wielinga, 1989], [Chandrasekaran,
1987], dans KADS l'accent a été mis principalement sur la modélisation des
connaissances spécifiques au domaine d'application [Wielinga et al., 1992a].
En ce qui nous concerne, nous avons pu observer la pratique de diagnostic de
l’expert des maladies des tomates D. Blancard pendant la campagne de 1987. Le
modèle de raisonnement de l'expert (comment il résout le problème) face à un
cas concret en pathologie végétale semble passer par trois étapes successives qui
lui permettent d'atteindre plus vite son diagnostic (voir annexe 2) :
◊ identification d'un contexte,
◊ recherche d'éléments menant à une présomption,
◊ utilisation de critères de confirmation.
Partant de cette constatation, les chercheurs de l'INRA ont trouvé intéressant
d'intégrer de telles métaconnaissances dans la base de connaissances de manière
à simuler un comportement analogue à celui de l'expert en situation. Pour
Delhotal (1987), chacune des étapes correspond à un “paquet de règles” ou bloc,
avec ses buts intermédiaires propres, et constitue en quelque sorte un soussystème expert.
Le découpage en unités fonctionnelles, outre qu'il correspond à une modélisation
satisfaisante de la démarche de l'expert, présente aussi l'avantage de faciliter le
travail du cogniticien, que la structuration de la base de connaissances autorise à
travailler sur des “unités” de connaissances plus homogènes et plus réduites.
Nous remarquons que ces étapes correspondent chacune à une tâche de
diagnostic au sens de KADS. Cette remarque est aussi valable pour les
générateurs de systèmes experts de seconde génération comme par exemple
SMECI [Smeci, 1991].
Le cheminement conceptuel
23
Mais dans ces systèmes, on ne se cantonne pas seulement au niveau de la
structuration d'une base de règles. Outre les connaissances déclaratives, SMECI
intègre des connaissances factuelles représentées sous forme d'objets
(catégories, prototypes) et des connaissances procédurales (démons, méthodes).
Ainsi, ces systèmes experts répondent à la critique comme quoi ils sont encore
trop superficiels au niveau de la représentation profonde des associations
phénoménologiques qu'ils sont capable de faire [Bonnet, 1984], [Pitrat, 1987] :
en effet, ils peuvent posséder un modèle d'organisation des objets du domaine
et l'utiliser pour inférer des données manquantes par un raisonnement de bon
sens (si type(culture) est “plein-champ”, alors chauffage(culture) est “froid” et
mode(culture) est “en-terre”), ils donnent la possibilité de décomposer le
problème en modules de connaissance (tâches) indépendants et de piloter la
résolution de problèmes à l'aide de stratégies d'inférence variées (profondeur,
largeur, meilleur d'abord).
Comme nous le constatons, les systèmes experts se sont développés surtout
autour de la simulation du raisonnement. Or, avant de raisonner pour
résoudre un problème, il faut être capable d'acquérir les concepts sur
lesquels on raisonne.
Cette faculté est le propre de l'induction qui est le processus qui va inférer des
règles générales (ou plutôt des hypothèses) à partir des cas particuliers. Cette
raison nous a conduit à étudier l'apprentissage inductif à partir d'exemples qui
permet de découvrir des connaissances déclaratives (des définitions, c'est-à-dire
quelque chose de vrai ou faux) caractérisant des concepts, à partir de
connaissances factuelles (des descriptions, cf. chapitre 3). Les règles induites
sous la forme d'un arbre de décision sont ensuite utilisées comme pour les
systèmes experts de première et seconde génération.
De plus, l'apprentissage automatique a été désigné pour répondre à la
constatation suivante : autant l'expert peut être compétent pour résoudre des
problèmes concrets, autant il n'est pas nécessairement un bon professeur capable
d'expliquer de façon logique par des règles abstraites comment il raisonne. Nous
pensons qu'il est effectivement plus simple et plus naturel de laisser l'expert
décrire des échantillons de différentes classes que de lui demander de fournir des
définitions qui permettront de les reconnaître. Cela permet aussi de tenir compte
des exceptions multiples que l'on trouve obligatoirement dans la nature et qui
constituent toutes des exemples “couvrant” la même classe. De ce fait, l'expert
peut adopter une démarche exploratoire pour comprendre la manière dont il a luimême pu (auparavant) apprendre son domaine : les règles en sortie peuvent être
contrôlées par les données qu'il a lui-même entrées, ce qui est plus “confortable”
que l'énoncé de règles abstraites. Le résultat est de toute manière identique à
celui des générateurs de systèmes experts : il s'agit de construire un système à
base de connaissances.
24
Chapitre 1
Du point de vue de l'expert, les concepts correspondent aux classes à reconnaître
(c'est-à-dire ici les diagnostics) et pour le cogniticien il s'agit aussi des buts du
système ou variables à expliquer. Ainsi, acquérir le raisonnement de l'expert
consiste à saisir sa logique de fonctionnement dans la phase d'acquisition
des connaissances. Mais cela ne suffit pas car l'expert et le cogniticien ne sont
pas les seuls utilisateurs mis en jeu. Il faut compléter cette logique par une phase
de mise en situation avec les personnes concernées par la version finale du
système expert : c'est la logique d'utilisation [Richard, 1983] [Mahé &
Vesoul, 1987].
Ainsi, comme nous l'avons constaté lors de campagnes de validation des
systèmes experts sur le terrain, il s'avère nécessaire d'être plus général dans
notre définition des concepts en biologie : l'apprentissage de concepts ne se
résume pas seulement à reconnaître les buts du système (ex : maladies), mais
aussi d'autres concepts aux contours mal définis tels que les types de
symptômes, la nature des traitements, etc.. Par exemple, qu'est-ce qu'une tache,
une anomalie de coloration, un jaunissement pour l'expert, pour l'agriculteur et
le technicien ? La question de savoir comment nous arrivons à formuler nos
concepts reste entière !
C'est pourquoi l'alternative de l'apprentissage à partir d'exemples nous semble
plus intéressante que l'approche système expert traditionnelle parce qu'il est
possible de faire intervenir l'utilisateur final avant même l'élaboration
automatique des règles : nous lui demandons de fournir des descriptions d'un
même échantillon qui aura été déjà décrit et identifié par l'expert. En multipliant
ce procédé (cette approche a été adoptée dans INSTIL), on favorise la
construction de règles plus robustes par rapport aux consultations futures du
système par des utilisateurs variés : par cette méthode, la consultation n'est plus
seulement le fruit d'un dialogue entre l'expert et le cogniticien mais profite de la
variabilité des descriptions au niveau de leurs descripteurs (ceux qui décrivent).
1.3.3 Adaptation à l'utilisateur
Bien adapter les systèmes experts à leur cible est une priorité et cela demande des
épreuves de validation sur le terrain : la principale difficulté réside en effet dans
les écarts d'interprétation de l'observation et du vocabulaire entre utilisateurs, ce
qui peut conduire à des diagnostics incorrects [Conruyt, 1986]. Pour tous, le
système expert apparaît comme un questionnaire interactif dans lequel ils sont
plus ou moins guidés. Il y a beaucoup de manières de présenter le questionnaire
ou l'ordre des questions à poser à l'utilisateur. Le problème fondamental est
alors de confronter la logique de l'expert qui décrit avec celle des autres
utilisateurs [Conruyt & Piaton, 1987].
En effet, un échantillon réel (plante malade à un stade plus ou moins évolué)
n'est pas observé ni décrit de la même façon par un expert, un technicien ou un
Le cheminement conceptuel
25
agriculteur. En définitive, c'est bien sûr l'expert qui donne son propre canevas
de description, mais le cogniticien doit généralement l'arranger à la lumière d'une
validation de terrain, pour qu'il devienne plus ergonomique et plus convivial
(interface homme-machine, complexité des questions, dialogues d'explication,
glossaire, etc.). Par exemple pour notre expérimentation sur le terrain, un aspect
important du questionnaire était de le laisser ouvert sur les possibilités différentes
d'interprétation des utilisateurs à propos de tout caractère d'un objet : il y avait
un champ commentaire associé à chaque attribut et l'information contenue a pu
être analysée après la première phase de validation, ce qui a contribué
grandement à l'amélioration du questionnaire.
Dans le cas fréquent où plusieurs experts ont contribué à la construction du
système expert, seule la validation peut permettre de repérer les convergences de
symptômes, les redondances ou les trous entre les expertises séparées.
Elle doit se faire dans des sites soigneusement choisis, ou :
• le besoin en diagnostic est réel, de par l'arrivée de nombreux échantillons de
plantes malades,
• l'utilisation des systèmes experts est possible, en termes de disponibilité de
consultants non spécialisés,
• les diagnostics peuvent être confirmés ou infirmés par un expert humain,
• un suivi peut être assuré par le cogniticien concerné.
La phase de validation, qui en théorie n'intervient qu'une fois le prototype
terminé, gagne à commencer le plus tôt possible, dès que le système est
montrable, et devient un élément permanent et central de la construction du
système. Cela permet aux utilisateurs de se familiariser avec lui, aux experts de
régler les différents types de bruits 5 qui peuvent avoir été introduits par
l'utilisateur. Pour l’application sur la tomate, on a pu ainsi mettre en évidence
trois niveaux de bruits :
◊ bruits liés à la collecte et à l’observation des exemples,
◊ bruits liés au remplissage du questionnaire,
◊ bruits liés à l’établissement du diagnostic.
Ces bruits apparaissent tout au long d’une chaîne intitulée “Du problème à la
maladie diagnostiquée”. La fiabilité du diagnostic dépend de l’accumulation des
bruits antérieurs tout au long de la chaîne. Une méthodologie de collecte,
d’observation et de description des exemples a pu être proposée afin d’obtenir de
meilleurs exemples pour l’apprentissage [Conruyt & Piaton, 1987] (figure 1.1).
Nous y reviendrons au chapitre 2 lorsque nous aborderons le problème de la
robustesse.
5
Une définition générale du bruit est : “tout ce qui détériore l’information sur l’environnement
que l’on cherche à connaître”.
26
Chapitre 1
Collecte
Le problème dans
la culture
Le syndrome sur
la plante
Observation
Les symptômes sur
les organes
Qualité de
l'échantillon
Compétences
en matière
d'observation
Description
Les concepts dans
le système de représentation
de l'utilisateur
Qualité du
questionnaire
Interprétation
Les hypothèses
les causes possibles
Identification
Qualité de
l'expertise
Le diagnostic
Fig. 1.1: Notre méthodologie de collecte, d’observation et de description des exemples
C'est l'analyse des cas de “mauvais fonctionnement” du système expert qui a pu
en effet permettre à l'expert et au cogniticien de proposer des solutions
d'amélioration. Un mauvais fonctionnement n'était d'ailleurs pas forcément un
échec absolu du système : le diagnostic peut s'avérer plus ou moins divergent de
celui de l'expert (par exemple : mauvais classement des maladies du fait que le
diagnostic présente plusieurs maladies simultanément).
Il faut aussi se demander pourquoi telle question apparemment inutile a été
posée, ou au contraire pourquoi telle autre qui aurait été logique n'est pas
apparue. Enfin il faut analyser l'influence des “mauvaises” réponses de
l'utilisateur, de façon à améliorer les résultats du système expert face à des
données plus ou moins inappropriées.
1.3.4 Comparaison des deux approches
Le but du stage de DEA d’Intelligence Artificielle que nous avons effectué
[Conruyt, 1988] dans le cadre du projet INSTIL était de comparer deux
systèmes à bases de connaissances en présence de tout l'univers “bruité” de
description des maladies de la tomate de la campagne de 1987. Le premier
système TOM (développé par un couple “cogniticien-expert”) était opérationnel,
et l'autre INSTOM (généré par les logiciels d'apprentissage Neddie et Main) était
à l'état de prototype.
Le cheminement conceptuel
27
Une première validation par l'expert (D. Blancard) des règles produites
automatiquement a montré qu'elles étaient trop générales (imprécises et
incomplètes) et difficilement interprétables. Il s'est donc révélé nécessaire de
comprendre le fonctionnement des logiciels d'apprentissage, de corriger certains
“bugs” et de tester leurs performances propres afin d'obtenir de meilleures
règles.
Pour cela, une méthodologie d'évaluation a été mise au point en faisant intervenir
différents tests locaux (dits de “robustesse” et de “précision”) avec plusieurs
niveaux de difficulté sémantique en fonction :
◊ du nombre d'exemples (17 à 21),
◊ du nombre de classes (2 à 3),
◊ des objets impliqués (types de symptômes, organes).
D'autres tests plus globaux faisaient intervenir :
◊ un plus grand nombre d'exemples et de classes (32 à 34),
◊ des types de cas différents (cas typiques ou photos, cas réels bruités),
◊ deux types de diagnostic (simple ou multiple, c'est à dire avec plusieurs
maladies présentes simultanément sur la même plante).
Ces moyens expérimentaux ont été implantés dans un environnement de tests.
Les résultats sont d'ordre à la fois quantitatifs (durées d'élaboration de l'arbre de
décision et des règles de production en fonction du nombre d'exemples et du
nombre de classes) et qualitatifs (appréciation de la justesse des règles en
fonction de la nature des caractères observés, de l'homogénéité des exemples).
Nous avons pu mettre en évidence certaines incohérences dans les règles
apprises qui sont dues à des insuffisances dans la phase d'acquisition des
connaissances. Nous mettons ainsi en lumière l'importance de la bonne
structuration des connaissances de base au sein d'un modèle descriptif
pour un apprentissage correct. En effet, ce modèle indique les relations
structurelles entre les concepts, il peut dans un premier temps être utilisé pour
acquérir les exemples à l'aide d'un questionnaire et servir de guide
d'observation. La qualité des exemples à apprendre (les données observées)
dépend directement de la qualité de la phase de modélisation des descriptions
(données observables). Dans un deuxième temps, il servira aussi au système
d'apprentissage pour généraliser en utilisant les hiérarchies d'objets (en sachant
par exemple que le terme de symptôme est plus général que le terme de tache).
Ces constatations sont à l'origine de l'implantation du système d'induction
KATE utilisant une représentation orientée objets : les frames.
28
Chapitre 1
Au cours de ce stage, des propositions pour améliorer les connaissances de base
avec notamment un nouveau statut des descripteurs sous forme de différents
types dépendants les uns des autres (objets, attributs et valeurs) ont pu être
fournies. Nous avons mis aussi en évidence qu'il existe quelques règles
générales de construction d'un bon modèle de représentation des connaissances
dans le domaine du diagnostic : elles seront développées au chapitre 4.
Partant des recherches sur le bruit de [Manago & Kodratoff, 1987], des travaux
complémentaires ont pu enfin être menés sur son traitement dans un univers réel
de description (coût du diagnostic, recouvrement et priorité des concepts,
tolérance des attributs numériques, confiance dans les exemples) [Conruyt &
Lesaffre, 1988].
Tous ces efforts de contrôle des entrées et d'évaluation des sorties du système
ont contribué à la production de règles de meilleure qualité syntaxique en
pratiquant un réglage progressif des logiciels d'apprentissage.
Néanmoins, du point de vue de leur sémantique, l'expert a été surpris de l'aspect
nouveau de certaines d'entre elles qui expriment souvent des évidences en
phytopathologie formulées d'une manière inhabituelle. Certaines d'entre elles
sont extrêmement concises et jugées positivement. D'autres, cependant, sont
trop générales et peuvent choquer même si leur formulation syntaxique est jugée
vraie. Par exemple, la manière de Main de caractériser certaines maladies par la
négative est déroutante :
(Si ¬A et si ¬B et si ¬C et ... et si ¬X alors conclusion)
exemple :
Si existe(tache-ou-plage-sur-foliole) = non& existe(anomalie-de-la-forme-ou-de-la-taille-sur-foliole) = non&
existe(jaunissement-sur-foliole) = non& existe(autres-anomalies-sur-foliole) = non&
existe(jaunissement/dessechement-sur-foliole) = non& existe(dessechement/tache-ou-plage-sur-foliole) = non&
existe(fletrissement/jaunissement-sur-foliole) = non& existe(ravageurs-sur-foliole) = non& existe(tache-ouplage/autres-anomalies-de-coloration-sur-foliole) = non& existe(jaunissement/tache-ou-plage-sur-foliole) = non&
existe(fletrissement/tache-ou-plage-sur-foliole) = non& existe(fletrissement-sur-foliole) = non&
existe(dessechement-sur-foliole) = non& existe(autres-anomalies-de-coloration-sur-foliole) = non
Alors Oidium (0.20), Pvy (0.80)
Cette règle signifie “S'il n'y a aucun de ces 16 symptômes, alors la maladie est
Oidium avec une probabilité de 0,2 ou Pvy avec une probabilité de 0,8". Elle
n'est pas jugée compréhensible par l'expert, parce qu'elle n'est pas facile à
interpréter, mais elle peut néanmoins être tout à fait correcte pour classer de
nouveaux exemples.
Ainsi, pour pouvoir comparer efficacement les logiciels d'apprentissage
(INSTOM) et le système expert TOM, il ne suffit pas de disposer de règles
syntaxiquement cohérentes par rapport aux exemples appris. L'objectif est aussi
Le cheminement conceptuel
29
d'acquérir des règle ayant un sens pour l'expert. Ceci n'est atteint que si une
modélisation préalable du domaine a été établie pour indiquer les relations entre
les différents objets constitutifs ainsi que leurs statuts respectifs (objet, attribut,
valeur). La conclusion de ce travail est que la modélisation du domaine est la
première étape indispensable pour apprendre à partir d'exemples. Ce travail n'a
pas pu être réalisé à temps avant la fin du projet INSTIL. C'est la raison qui
explique la faiblesse des résultats de l'évaluation des mécanismes
d'apprentissage au niveau qualitatif [Lesaffre et al., 1989].
1.3.5 Conclusion
Dans ce paragraphe, nous avons comparé les différentes démarches des
chercheurs pour acquérir des connaissances expertes. Ces comparaisons sont
établies en fonction de l’expérience acquise pendant les deux années d’utilisation
des systèmes experts (1986-1987). Les systèmes experts essayent de modéliser
le raisonnement d’un expert dans un domaine précis. Plutôt que de le modéliser
sous forme de règles et d’appliquer un mécanisme déductif, nous préférons
appliquer la méthode inverse en utilisant l'apprentissage inductif à partir
d’exemples pour acquérir les règles expertes. Nous avons justifié ce choix en
analysant le raisonnement de l’expert d’un point de vue pratique (la logique de
fonctionnement : § 1.3.2), puis nous avons montré l’importance de la validation
des connaissances sur le terrain (la logique d'utilisation). En effet, la qualité de
l’expertise est nécessaire mais n’est pas suffisante pour obtenir des résultats
robustes : l'adaptation des connaissances à l'utilisateur cible est
déterminante pour l'acceptation du système expert. Enfin, pour le traitement des
connaissances, nous avons voulu comparer les techniques d’apprentissage et un
système expert classique (§ 1.3.4). Nous avons appris alors qu’il était nécessaire
de bien structurer les connaissances de fond pour obtenir des
descriptions de qualité. Ce fut là l’origine de la conception du logiciel KATE.
1.4 KATE
KATE (Knowledge Acquisition Tools for Expert systems) est un logiciel
d'apprentissage à partir d'exemples issu des travaux d'INSTIL et de la thèse de
Manago (1988). Tous les acteurs de ce projet ont souligné la nécessité pour les
logiciels d'apprentissage automatique de posséder un bon formalisme de
représentation des connaissances du domaine et des mécanismes d'exploitation
capables de tirer partie de ce formalisme.
1.4.1 Une bonne représentation des connaissances
Un système d'apprentissage doit s'adapter à une représentation plus complexe de
la réalité. Comme le système ID3 dont il est issu, Neddie utilise une
30
Chapitre 1
représentation des connaissances par vecteurs “attribut-valeur” (logique des
propositions ou logique d'ordre 0). Il n'utilise aucune connaissance sur le
domaine, c'est à dire aucune taxonomie (ex : blanc et jaune sont des couleurs
claires), aucune règle (ex : lorsqu'il y a une multitude de taches sur une feuille,
alors leur taille est petite), aucune relation. Il ne peut pas par exemple représenter
les objets composites (une plante est formée d'une tige, de feuilles, de racines,
etc.) et les hiérarchies de spécialisation d'objets (un symptôme peut être précisé
par les termes de tache, anomalie de coloration, flétrissement, etc.).
Si ce mode de représentation des connaissances est adéquat pour certaines
applications simples, il s'est avéré beaucoup trop limité pour notre application en
pathologie végétale. Nous devons être capable de représenter un nombre
quelconque d'objets du même type : il peut en effet y avoir jusqu'à six
symptômes différents sur une même plante avec par exemple deux sortes de
taches sur les feuilles qui n'indiquent pas la même maladie ! Cette caractéristique
objective (car naturellement présente) ne peut pas s'exprimer autrement qu'en
introduisant des variables indicées aux objets comme par exemple tache(1) et
tache(2) indiquant que l’on a deux sortes de taches, ce qui est la caractéristique
d'un formalisme d'ordre 1 ou logique des prédicats.
De plus, la description des exemples est faite de manière subjective par des
observateurs de nature multiple. Les utilisateurs moins qualifiés que l'expert ne
reconnaissent pas forcément les symptômes à décrire : ils peuvent en voir qui
sont secondaires ou non pertinents aux yeux de l'expert (par rapport aux
maladies possibles de la plante). Ceci peut être dû soit à des “faux symptômes”
(par exemple, des taches de cuivre issues d'un précédent traitement à la bouillie
bordelaise) ou à des problèmes d'évolution ou de convergence des symptômes
observés à des stades avancés de la maladie (ex : un flétrissement évoluant en
jaunissement pour le “chancre bactérien”). La manifestation de la maladie
donnera l'apparence de deux symptômes différents que le technicien agricole
décrira alors que l'expert n'en verra qu'un seul, celui qui est la cause primaire de
la maladie (le flétrissement est ainsi le symptôme “pathognomonique” de
Corynebacterium michiganense) [Conruyt & Piaton, 1987]. Ce “bruit” lié aux
compétences en matière d’observation (fig. 1.2) illustre la complexité des
descriptions de symptômes que les utilisateurs sont capables de fournir au
système d'apprentissage.
Il est donc souhaitable que le système sache montrer comment observer, au
travers d'un questionnaire guidant l'observation de l'utilisateur. Cela nécessite
une hiérarchisation des descripteurs entre eux, chacun obtenant un statut propre
plus ou moins dépendant des autres dans la hiérarchie. La recherche d'un certain
ordre de description met en lumière la notion d'objet dans la structuration des
connaissances. Il n'est plus possible de considérer les caractéristiques comme
indépendantes les unes des autres comme cela est le cas dans les tableaux de
données classiques utilisés par ID3 ou Neddie.
Le cheminement conceptuel
31
Ces remarques ont amené un des acteurs principaux d'INSTIL à concevoir le
système KATE [Manago, 1991] comme une extension de Neddie afin d'être en
mesure de traiter les entités complexes du monde réel. Dans ce système, on
s'appuie sur une représentation à base de schémas (ou frames) [Minsky, 1975],
qui est une représentation par objets structurés dérivée de la logique d'ordre 1
[Nilsson, 1980].
La formalisation de ces objets du point de vue mathématique est décrite au
chapitre 5, leur formalisation informatique au chapitre 6. Ensuite, les extensions
apportées à l'algorithme d'induction utilisant ces connaissances structurées sont
formalisées au chapitre 7.
1.4.2 Des mécanismes d'exploitation adaptés
Un frame ou schéma est une structure de données à trois niveaux frameattribut-facette représentant une unité d'information descriptive (un
descripteur) avec une sémantique donnée [Winston, 1977], [Bobrow &
Winograd, 1977], [Masini et al., 1989]. Si le descripteur est un objet, il peut
aussi bien représenter une famille d'objets (une classe) qu'un objet particulier
(une instance de la classe). La distinction entre ces deux types d'objets est
importante du point de vue de l'héritage (qui permet le partage et la réutilisation
des propriétés entre les objets) car la nature des relations qu'ils entretiennent
n'est pas la même :
◊ deux objets de type “classes” sont reliés par la relation d'inclusion entre
ensembles avec un lien de type “sorte-de”,
◊ un objet de type “instance” est un élément appartenant à un objet de type
“classe” et le lien est de type “est-un” [Giarratano & Riley, 1989].
Un frame n'accède qu'à (ne connaît que) l'information dont il dispose “en
propre”, c'est à dire à ses propriétés ou champs associés (les slots), et aux
valeurs qu'elles prennent. Chaque champ est nommé et possède un type qui
permet de déterminer soit les caractéristiques locales de l'objet (type attribut),
soit les relations que l'objet entretient avec d'autres objets (type relation).
D'autres types sont également possibles. Certains sont prédéfinis et d'autres
peuvent être introduits par la personne chargée de représenter les connaissances
de l'expert :
◊ les démons sont des messages procéduraux prédéfinis qui permettent
d'appliquer des réflexes (activés automatiquement lors de l'accès à la valeur
de l'attribut) ou des règles de bon sens sur les objets (appliquées à la demande
de l'utilisateur). Ces règles appelées aussi méthodes permettent soit :
32
Chapitre 1
1) un raisonnement guidé par les faits en chaînage avant (déduire la valeur
d'un champ à partir de celle d'un autre champ à l'aide d'un démon “siajouté” : par exemple, le fait que le mode de culture soit “plein-champ”
permet de déduire automatiquement que le type de culture est “en-sol” et
que le mode de chauffage de cette culture est “froid”),
2) un raisonnement guidé par les buts en chaînage arrière (déduire la valeur
du champ à partir de celle de plusieurs autres champs à l'aide d'un démon
“si-besoin” : par exemple, si l'on cherche à renseigner le rapport entre la
longueur des ailes et la longueur du corps d'un insecte, un message
“rapport” est envoyé à la longueur des deux objets pour savoir s'ils sont
connus. Si oui, le rapport peut être calculé sinon la procédure n'est pas
déclenchée, et cela tant que les deux autres valeurs ne sont pas indiquées
par l'utilisateur,
◊ la cardinalité explicite le fait qu'un objet puisse être absent (0), présent (1),
et s'il est présent, puisse être décrit plusieurs fois. Dans ce dernier cas, on
parle alors de mutiplicité de l'objet,
◊ l'utilité de l'objet indique son mode d'utilisation, soit qu'il est significatif
pour la classification, soit qu'il est simplement là pour structurer la
description (il est alors fictif, cf. § 4.6.4.1).
Chaque champ nommé est aussi un frame dépendant de l'objet auquel il est
associé. Les champs possèdent leurs propres types (appelés facettes) qui
donnent différentes informations complémentaires :
◊ l'ensemble des valeurs possibles pour une classe (range), la valeur observée
pour une instance. On doit noter ici que les champs de type relation ont des
valeurs qui sont elles mêmes d'autres objets alors que les champs de type
attribut possèdent des valeurs “terminales” non explicitées sous forme de
frames. Il y a néanmoins une exception avec les valeurs qui sont classifiées
(l’attribut possède alors une taxonomie de valeurs) et qui sont décrites aussi
par des frames,
◊ la valeur par défaut prise par l'attribut de l'objet,
◊ la question associée au champ,
◊ Outre le type relation expliqué ci-dessus, d'autres types permettent de
préciser la nature des valeurs associées au champ : types nominal (valeurs
discrètes), classifié (taxonomie de valeurs), booléen (oui-non), entier, réel,
avec les combinaisons valides pour les types numériques (intervalle) et
qualitatifs (ordonné),
Le cheminement conceptuel
33
◊ la cardinalité de l'attribut qui indique le nombre de valeurs tolérées pour
fournir une réponse plus ou moins précise à la question (cf. § 4.6.4.3).
L'intérêt d'utiliser cette approche se situe à deux niveaux :
Au niveau de la description, il est possible de concevoir un modèle
d'organisation des connaissances selon différents points de vue détaillés au
chapitre 4. L'idée principale est de proposer à un utilisateur quelconque du
système un questionnaire sous la forme d'un guide d'observation (comment
observer ?) avec le principe de pouvoir décrire du niveau le plus général au
niveau le plus particulier (en partant de la racine !) selon différentes directions
(dépendances et spécialisations). Ce guide est l'ossature du questionnaire, il
n'est pour autant pas contraignant : si l'utilisateur désire directement décrire un
objet à un niveau donné de la structure proposée, le questionnaire va inférer
l'existence des objets dont il dépend avant de permettre la description de l'objet.
Au niveau de la classification, une procédure de filtrage des objets et des
attributs pertinents dans le contexte d'un nœud de l'arbre de décision permet de
contraindre l'espace des tests possibles pour le calcul du gain d'information.
Pour ID3, le gain d'information est calculé pour tous les attributs qui
n'apparaissent pas déjà dans le chemin courant de l'arbre (menant de la racine au
nœud courant). Pour KATE, seuls les descripteurs applicables au nœud courant
sont pris en compte pour le calcul du gain d'information de chacun d'eux (voir
plus bas).
KATE n'est donc pas une nouvelle technique d'induction à part entière, elle
représente une extension des algorithmes ID3 et Neddie pour le traitement de
données complexes. Pour comprendre sur un exemple simple le principe de la
discrimination par arbre selon ID3, on peut se référer à [Quinlan, 1983] et
[Manago, 1988]. En analyse des données, il s'agit d'un processus analogue de
segmentation [Diday, 1982].
Pour sa part, KATE teste systématiquement le gain d'information d'un attribut
associé à un objet. Il exploite la structure des schémas pour engendrer
dynamiquement les tests dont le gain d'information va être calculé [Manago et
al., 1991].
Considérons une base d'exemples pour une application de diagnostic en
pathologie végétale (figure 1.2) :
34
Chapitre 1
Exemple
ex1
Maladie
Symptôme
...
Verticilliose flétrissement
...
ex2
Botrytis
tache
...
ex3
Botrytis
tache
...
ex4
Alternariose
tache
...
.
.
.
.
.
.
.
.
Tache
Zonations(tache)
Taille(tache)
...
ex2
oui
18
...
ex3
non
ex4
16
2
...
oui
.
.
.
.
.
.
.
.
...
Fig. 1.2 : Tableau des exemples formés d'objets structurés pour les maladies des tomates
Le but est de reconnaître efficacement une maladie à partir de ses
caractéristiques. L'algorithme d'induction de KATE permet de construire
automatiquement un arbre de décision tel celui de la figure 1.3 :
existe(tache)
oui
non
taille(tache)
<9
Alternariose: ex4
Verticilliose: ex1
9
Botrytis: ex2, ex3
Fig. 1.3 : Un arbre de décision pour la reconnaissance de maladies de la tomate
Un nœud, dans l'arbre de décision, porte soit sur l'introduction d'un nouvel
objet, soit sur un champ d'un objet apparaissant déjà dans l'arbre de décision.
Les nœuds sont donc soit du type “Y a-t-il une tache ?” soit du type “Quelle est
la taille de la tache déjà instanciée plus haut dans l'arbre ?”
• Quand tous les exemples conformes à la valeur du test (libellé à la branche
courante de l'arbre de décision) contiennent un objet du même type (une
tache par exemple), ses champs deviennent des tests candidats au calcul du
gain d'information en plus des objets qui n'ont pas été introduits plus haut
dans l'arbre. Le résultat du meilleur test conduit soit à introduire un nouvel
objet dans le chemin courant de l'arbre de décision, soit à préciser la
Le cheminement conceptuel
35
description de l'objet courant au niveau de ses attributs ou encore de ses
spécialisations.
• Si un seul des exemples au nœud courant ne contient pas un objet du
même type, le gain d'information du test “existe(objet)” est calculé et les
tests portants sur ses champs ne sont pas considérés.
Pour les détails concernant l'algorithme, voir le chapitre 7.
Cet arbre peut dans un deuxième temps être exploité pour identifier un nouveau
cas : les nœuds de l'arbre correspondent à des questions posées à l'utilisateur,
les feuilles correspondent aux diagnostics donnés par le système expert.
L'algorithme ID3 utilise la mesure numérique du gain d'information dérivée des
travaux en théorie de l'information fondée sur l'entropie [Shannon, 1949]. Le
but est de déterminer à chaque niveau les critères les plus discriminants. En
phase d'apprentissage de l'arbre, le gain d'information des différents critères est
calculé et celui estimé le plus discriminant est sélectionné de façon irrévocable
(pas de retour en arrière ou de recherche en faisceau). Ce processus est répété
récursivement jusqu'à ce qu'il ne reste plus que des exemples de la même classe
(ici le nom du diagnostic). ID3 utilise une stratégie de recherche heuristique en
gradient [Nilsson 1980] qui tend à produire un arbre globalement efficace : en
moyenne, un nombre minimum de questions sont posées à l'utilisateur durant la
consultation interactive de l'arbre de décision.
L'induction permet de transformer une base de données brutes en une
connaissance opérationnelle exploitable. Elle permet en outre d'apprendre
automatiquement trois types de connaissances :
◊ un ensemble de critères optimaux (en un certain sens) pour reconnaître
efficacement un concept (une généralisation des exemples d'apprentissage),
◊ un ordre sur les critères en fonction de leur capacité à discriminer les
exemples des différentes classes (information de contrôle),
◊ une partition des exemples d'apprentissage aux feuilles de l'arbre.
Outre la construction d'un arbre de décision, des règles de production peuvent
ensuite être obtenues par élagage de l'arbre [Manago, 1988].
Comparé à d'autres algorithmes d'induction, ID3 présente certains avantages :
plusieurs exemples peuvent appartenir à la même classe dans la base à traiter, il
peut y avoir plus de deux classes différentes à discriminer (nous ne sommes pas
limité à un apprentissage de type exemples et contre-exemples), les critères
nominaux (à valeurs discrètes) peuvent avoirs plusieurs valeurs pour marquer
l'imprécision des réponses de l'utilisateur, etc.. Les implantations de
l'algorithme ID3 gèrent également les critères à valeurs continues et ordonnées
36
Chapitre 1
(comme les valeurs entières et réelles) en “binarisant” le test. Un seuil est calculé
dynamiquement comme pour le critère “taille” de la figure 1.3. Notons qu'un
critère numérique peut apparaître à plusieurs reprises avec des seuils différents
dans un même chemin de l'arbre. L'algorithme est très efficace et peut traiter de
grosses bases d'exemples (la complexité algorithmique est linéaire en fonction
du nombre des exemples). De plus, sa stratégie descendante (création de
partitions des exemples au nœud courant) permet de traiter certains problèmes de
“bruit” à l'aide de méthodes statistiques comme un élagage en χ 2. Il permet
également de prendre en compte des coûts associés aux critères et qui dépendent
du domaine d'application: coût financier d'un test, durée d'intervention sur une
chaîne de production pour une application dans l'industrie manufacturière,
douleur infligée à un patient pour une application médicale, fiabilité d'un critère
visuel pour une application d'aide à la photo-interprétation, etc.. On préférera
ainsi faire deux tests qui ne coûtent rien plutôt qu'un seul qui a un coût associé.
On peut donc optimiser d'autres critères outre l'efficacité du diagnostic.
1.5 L'aide à la classification au MNHN
A la suite de l'expérience en pathologie végétale décrite ci-dessus, une autre
possibilité d'appliquer les systèmes experts a été proposée au MNHN (Muséum
National d'Histoire Naturelle de Paris) au sein du Laboratoire de Biologie des
Invertébrés Marins et de Malacologie (LBIMM, URA 699 du CNRS). Il ne
s'agissait pas ici de faire de l'aide au diagnostic de symptômes décrits sur des
invertébrés marins mais plutôt de concevoir et réaliser des outils informatiques
pour aider les biologistes à identifier des spécimens, mais aussi à créer des
regroupements de descriptions d’individus, d’espèces ou de sous-genres.
1.5.1 Comparaison avec l'opération SEPV de l'INRA
La problématique est ici analogue à la précédente en ce qui concerne la démarche
scientifique, tout en étant plus générale :
◊ au lieu de s'intéresser au couple “symptôme-diagnostic”, on travaille sur le
couple “description-détermination”. En effet, le diagnostic peut être considéré
comme une forme de détermination dans un certain contexte (la maladie) tout
comme le symptôme est une forme de description selon ce même point de
vue,
◊ on s'intéresse davantage à la nature et à la diversité des spécimens euxmêmes. L'objectif n'est pas seulement de déterminer un “avoir” (comme le
nom de la maladie possédée par le spécimen), mais plutôt de déterminer un
nom propre, ce qui fait “l'être” (c'est Solanum lycopersicum6), que l'on
6
Plus connu sous le nom vernaculaire de “tomate”.
Le cheminement conceptuel
37
appelle la classe, et qui permettra de reconnaître par la suite d'autres
spécimens,
◊ la classe est établie par l'étude des relations, l'analyse et la comparaison des
différences et des ressemblances entre les divers spécimens qui composent
l'échantillon. Les spécimens sont d'abord regroupés en Espèces, puis de
manière ascendante, on regroupe les Espèces en Genres, puis les Genres en
Familles, etc.. Le résultat est la fabrication d'une hiérarchie de classes ou
taxinomie.
De ce fait au MNHN, nous ne sommes pas en présence d'un seul but
d'identification d’un avoir (comme une maladie), mais aussi et surtout d'un
objectif de classification (ce qui fait l’être).
Pour [Brusca R.C. & Brusca G.J., 1990] :
«The term biological classification has two meanings. First, it means the process of
classifying, which consists of the delimiting, ordering, and ranking of organisms into groups.
Second, it means the product of this process itself, or the classificatory scheme. The natural
world has an objective structure that can be empirically documented and described. One goal of
science is to describe this structure, and classifications are one way of doing this. Carrying out
the process of classification constitutes one of the principal tasks of the systematist or
taxonomist.»
La classification est donc plutôt un processus alors qu’une classification est
assimilée à un résultat. Nous approfondirons la définition de la classification au
chapitre 3. Les personnes chargées d'établir des classifications naturelles sont
appelées des systématiciens. Pour [Matile et al., 1987] :
«La systématique est l'étude et la description de la diversité des êtres vivants, la recherche de
la nature et des causes de leurs différences et de leurs ressemblances, la mise en évidence des
relations de parenté existant entre eux et l'élaboration d'une classification traduisant ces relations
de parenté.»
Cette définition de la systématique est tout un programme qui a pour but La
Classification Finale des êtres vivants (l'organisation de la nature qui s'impose à
l'homme). Dans notre travail, nous nous contenterons d'étudier les aspects qui
ne sont pas liés à la phylogénie et à l'évolution des êtres vivants, c'est-à-dire
décrire, nommer, distinguer les différentes sortes et permettre l'identification de
nouveaux échantillons.
Néanmoins, ces classifications servent de reformulation des descriptions et
permettent de raffiner le modèle descriptif. C'est à partir de ce modèle que l'on
pourra peut-être par la suite établir de vrais classifications fondées sur les
reconstructions phylogénétiques.
Une autre caractéristique de notre approche est que les objets que l'on cherche à
décrire dans cette thèse sont plutôt des spécimens que des Espèces, comme cela
semble souhaitable au MNHN du fait que c'est le travail quotidien des
38
Chapitre 1
taxonomistes que de recueillir des collections d'individus et de les classifier.
Ainsi, nous nous plaçons du point de vue des nominalistes tels que Buffon ou
Adanson qui soulignaient que les systématiciens ne peuvent étudier que des
échantillons, sachant qu'ils n'ont pas la certitude qu'un échantillonnage ne
renferme pas plusieurs Espèces qu'ils ne savent pas encore distinguer7 :
La détermination exacte de l'objet d'étude constitue un préliminaire indispensable
à toute recherche [Matile et al., 1987]. Par exemple, l'identification de maladies
(le diagnostic) nécessite d'abord une classification des plantes afin d'identifier
des objets comparables entre eux appartenant à une même classe bien établie : on
ne compare pas les symptômes d'un plant de pomme de terre avec ceux d'un
plant de tomate (bien qu'ils appartiennent tous les deux à la même famille des
Solanacées !). De même, la classification des maladies nous est fournie au départ
sans que l'on souhaite la remettre en cause (figure 1.4).
Inversement, la classification naturelle des spécimens étudiés au Muséum
considère différentes classes qui ne sont ni sûres ni définitives : ces classes
peuvent être elles mêmes remises en question dans l'avenir.
Dans le processus d'identification de maladies, c'est la description de
l'association “symptôme-organe” dont le tout forme un syndrome qui est
importante. Pour la détermination de spécimens, c'est simplement la description
de l'organe (le composant) avec ses caractéristiques propres (selon différents
points de vue) qui permet à elle seule de trouver le nom de la classe.
7
Dans ce contexte, la démarche du systématicien sur les spécimens est identique à celle du
mathématicien sur les nombres. Ils forment des hypothèses en essayant de découvrir des
régularités dans leurs observations, qu’ils expérimentent ensuite sur d’autres individus afin de
renforcer ou réfuter leurs hypothèses.
39
Le cheminement conceptuel
accident-climatique
affection-non-parasitaire
erreur-culturale
coup-de-soleil
pb-de-froid
pb-conduite-culture
pb-agronomique
pb-alimentaire
pb-hormonal
phytotoxicité
variété-inadaptée
diagnostic
bactérie
champignon
affection-parasitaire
corynebacterium
xanthomonas
...
alternariose
botrytis
cladosporiose
...
mycoplasme
stolbur
ravageurs
acariens
insectes
virus
cmv
pvy
tmv
aleurodes
mineuses
pucerons
noctuelles
Fig. 1.4 : Une classification des maladies de la tomate
C'est pourquoi en pathologie végétale, on n'avait pas représenté explicitement la
structure de la plante avec des objets composites (les organes) qui dépendent les
uns des autres. On a plutôt cherché à représenter la hiérarchie de spécialisation
des symptômes en englobant le nom de l'organe sur lequel ils étaient situés
(figure 1.5) :
Fig. 1.5 : Représentation de la hiérarchie des symptômes dans TOM
Par cette pratique, on mettait en valeur la notion d'héritage dans les arbres de
spécialisation qui permettait de regrouper les propriétés communes aux objets les
plus spécifiques vers les objets les plus généraux (figure 1.6). Par exemple, la
40
Chapitre 1
localisation et la répartition du symptôme sur la tige sont des champs (attributs)
de l'objet “symptôme-extérieur-tige” qui sont hérités par les différents noms de
symptômes (chancre-exterieur-tige, tache-ou-plage-exterieur-tige, etc.). On
pouvait aussi justifier le bien fondé de l'héritage multiple en faisant hériter
l'attribut “mesure” d'une tache quelconque vers l'objet “tache-ou-plageexterieur-tige”, alors que la couleur dépend toutefois de l'organe ou se situe le
symptôme (elle masque la couleur de la tache-ou-plage plus générale) :
tache-ou-plage
symptôme-extérieur-tige
mesure
couleur
localisation
répartition
tache-ou-plage-exterieur-tige
couleur
Fig. 1.6 : Représentation de la hiérarchie d’un symptôme en utilisant l’héritage multiple
Si ce mode de représentation est séduisant du point de vue informatique, il ne
correspond pas du tout à la réalité biologique : un symptôme dépend d'un organe
et non l'inverse ! De plus, la préoccupation de l'expert est d'obtenir des
descriptions de qualité faites par lui-même ou d'autres biologistes. Comment
faire alors pour guider l'observateur dans un tel graphe avec héritage multiple ?
La préoccupation majeure de l'informaticien doit donc être de s'adapter à la
réalité du domaine et de se prémunir contre son penchant naturel à vouloir faire
“rentrer” le domaine étudié dans un modèle préfabriqué, quand bien même il
s'agirait d'un langage à “objets”.
Il n'est d'ailleurs pas exclu que la notion d'"héritage multiple" ne corresponde à
aucune réalité naturelle tangible, et ne constitue en fait qu'un artifice pour traiter
de l'influence de contextes variables.
En fait dans le problème précédent, on a mélangé à tort deux dimensions
orthogonales qui sont la composition d'objets et la spécialisation d'objets. Ces
deux dimensions doivent être distinguées dans le modèle descriptif et dans la
représentation des connaissances, comme nous le verrons au chapitre 4.
1.5.2 Utilisation des langages de frames et de l'hypertexte
Pour répondre au problème d'obtenir des descriptions de qualité qui tiennent
compte de la manière d'observer de l'expert, nous nous sommes tourné vers un
langage de type hypertexte : HyperTalk d'HypercardTM. Ce choix permettait de
construire rapidement des prototypes de questionnaires sans avoir à se
préoccuper de la représentation interne des connaissances.
Le cheminement conceptuel
41
Un questionnaire “sur mesure” pour l’application tomate a été fabriqué à l’INRA
de Guadeloupe en 1989 à partir des propositions écrites dans le mémoire de fin
d’études de l’ISARA. Nous nous sommes intéressé plus à l’aspect ergonomique
du questionnaire en ajoutant des dessins expliquant le vocabulaire, des messages
d’observation et des animations graphiques.
Entre temps, D. Blancard avait édité son manuel d’identification des maladies de
la tomate basé à la fois sur la localisation des symptômes par organe et des
descriptions graphiques (dessins, photos) de concepts (folioles filiformes, taches
en œil d’oiseau sur fruit, etc.). Cet ouvrage est un véritable guide d’observation
empruntant à TOM une grande partie de ses connaissances ainsi que la façon
dont celles-ci sont organisées dans le système. Il peut servir de base à la
conception d’un authentique questionnaire multimédia, ce qui permettrait
[Blancard, 1988]. Il était clair que le questionnaire devenait notre
préoccupation majeure pour l’obtention d’exemples de qualité.
D’ailleurs, D. Blancard a par la suite édité un autre ouvrage sur d’autres cultures
maraîchères, ce qui illustre bien l’intérêt porté à cette démarche nouvelle pour des
outils de diagnostic.
Constatant que la procédure d’observation des symptômes sur différentes plantes
utilisait le même schéma, c'est-à-dire un schéma fondé sur une description
structurée par organes, l’idée est alors venue d’automatiser un processus de
construction automatique de questionnaires en s’appuyant à la fois sur une
structure de connaissances (frames) représentant le modèle descriptif et les
entités hypertextes d’HyperCard (boutons, champs, cartes, etc.). Il ne serait
alors plus la peine de fabriquer à chaque fois un questionnaire hypertexte par
plante à partir de rien, mais de le générer à l’aide d’un programme associant les
objets, attributs et valeurs des connaissances de fond aux entités hypertextes.
Cette trame de questionnaire pourrait être ensuite personnalisée par l’expert.
Cette idée nouvelle a servi de base à l’élaboration de notre sujet de thèse présenté
au MNHN, en collaboration avec l’INRA, l’INRIA et la société Acknowledge
(rebaptisée Acknosoft en 1991).
Notons que le couplage entre des outils d'acquisition de connaissances, les
langages de frames et l'hypertexte n'est pas neuf : ils permettent d'aborder le
concept d'Hypermedia pour favoriser la communication des connaissances
expertes vers des utilisateurs variés [Gaines & Linster, 1990]. D'autres auteurs
[Rada & Barlow, 1989] se sont plus intéressés à la paire systèmes experts et
hypertexte pour constituer le concept d'expertexte, mettant en avant le couplage
entre les règles et les entités hypertextes et non pas entre les objets du modèle
eux-mêmes et ces entités (ceci constitue l'originalité de notre travail, cf. § 6.4.2).
42
Chapitre 1
1.5.3 L’application SPONTAX
Le projet SPONTAX (acronyme signifiant “Sponge taxonomies”) servant de
support d’application à cette thèse a pour objectif d’aider les biologistes à la
classification et à la détermination d’éponges marines. Il est important de
distinguer deux types de processus de classification pour bien fixer les objectifs :
◊ Le premier type est la classification naturelle établie par les spécialistes
qui ont regroupé les spécimens à des niveaux taxinomiques différents selon
certains critères morphologiques et avec des méthodes diverses
(embryologiques, biochimiques, histologiques, cytologiques, etc.). Les
éponges appartiennent au Phylum Porifera (qui porte des pores) dans la Série
des Invertébrés. Ce sont des animaux. Elles vivent presque toutes en milieu
benthique (sur les fonds marins) à des profondeurs variées [Brusca R.C. &
Brusca G.J., 1990]. A peu près 9000 espèces d’éponges ont été décrites au
sein de trois Classes (Calcarea, Hexactinellida, Demospongia). Les
Demospongia regroupent 95% des espèces vivantes décrites.
Les données sur lesquelles nous allons travailler représentent des spécimens
d'un seul Genre d'éponges siliceuses appelé Hyalonema et appartenant à la
Classe des Hexactinellida (figure 1.7). Ce sont principalement des éponges de
grande profondeur ancrées dans des sédiments mous et bien individualisées.
Série
Embranchement
Classe
Ordre
Famille
Genre
Sous-Genre
Espèce
--> Invertébrés
--> Porifera
--> Hexactinellida
--> Amphidiscophora
--> Hyalonematidæ
--> Hyalonema
--> Prionema
--> spinosum
Fig. 1.7 : Disposition du Genre Hyalonema dans la hiérarchie linéenne
◊ Le second type est la classification artificielle correspondant à une
méthode informatique de partitionnement des descriptions. En analyse des
données, les partitions obtenues (qui n’ont pas nécessairement de concept
associé) produisent une classification alors qu’en intelligence artificielle, on
recherche des définitions associées aux partitions (voir § 3.3.2). Le but
poursuivi au départ du projet était de comparer deux classifications naturelles
établies par deux experts au début du siècle [Schulze, 1902], [Ijima, 1926]
avec une classification artificielle basée sur une technique informatique
(apprentissage inductif avec KATE). Il faut savoir que les classifications qui
ont été proposées sur ces espèces de Hyalonema sont essentiellement basées
sur des caractères microscopiques liés aux différentes sortes de spicules8. Les
8
Les spicules sont de minuscules aiguilles siliceuses, dont l'agencement plus ou moins
Le cheminement conceptuel
43
exemples sur lesquels nous avons travaillé pour établir cette classification
artificielle sont aussi bien des cas réels d'éponges, c'est-à-dire des
descriptions de spécimens, que des cas virtuels. Ces derniers regroupent des
descriptions de plusieurs spécimens dont on ne maîtrise pas toujours
l’origine : les individus sont récoltés par dragage, ce qui ne permet pas de
récupérer toujours des spécimens entiers. Est-ce que la description effectuée
est celle d’un spécimen unique et entier ou bien a-t-elle été reconstituée à partir
de morceaux d’individus différents jugés appartenir à la même classe ? Cette
information n’est pas toujours indiquée dans les descriptions livresques
anciennes.
L’autre but de l'étude au LBIMM est de construire un système expert de
détermination, permettant de reconnaître des Sous-Genres de Hyalonema à
partir de nouvelles observations d'éponges. Les observations sont des
descriptions de nouveaux spécimens dont on ne connaît pas la classe de
détermination, c'est-à-dire à quel Sous-Genre ils appartiennent.
De ces deux objectifs différents (classification et détermination) a découlé un
troisième, celui de la modélisation des connaissances descriptives de l’expert.
En effet, pour répondre aux objectifs de classification et de détermination, il est
nécessaire de constituer une base de descriptions conforme à sa richesse et sa
diversité naturelles : avec l'expérience acquise des autres projets (SEPV et
INSTIL), nous savons qu’il ne faut pas appauvrir les données pour s’adapter
aux outils de représentation des connaissances et aux algorithmes de traitement.
Au contraire, il faut laisser s’exprimer toute l’expertise disponible dans les
connaissances de départ. Ce point de vue est pour nous un élément capital de
la robustesse des systèmes de détermination en biologie.
Nous nous sommes volontairement restreints au Genre Hyalonema pour lequel
on peut disposer d'un grand nombre de descriptions répertoriées (plus d'une
centaine). Le domaine à décrire est représentatif d’une grande majorité d’autres
domaines en systématique, sans être trop complexe ni trop simple : les
spécimens sont bien individualisés (ce ne sont pas des colonies), sans
polymorphisme, et sont représentés par un squelette (et non par des parties
molles plus sujettes aux modifications du milieu). Néanmoins, on peut trouver
une grande variabilité de descriptions possible au sein d'un même Sous-Genre.
Le choix de ce domaine a aussi été favorisé par la disponibilité bienveillante de
l'expert M. Lévi, dont le départ définitif à la retraite poserait le problème crucial
de la perte d’une expertise non transmise au MNHN. La nature restreinte, pas
trop complexe, et bien délimitée du domaine a été retenue en priorité pour servir
de support à la création des outils informatiques (éditeur de modèle descriptif et
de questionnaire).
enchevêtré constitue une sorte de squelette qui rigidifie le corps mou de l'éponge.
44
Chapitre 1
Une fois créés, ces outils nous ont permis de concevoir un modèle descriptif et
une base de 125 exemples classés en douze Sous-Genres. Le schéma de
l’annexe 3 montre la distribution des descriptions en fonction des Sous-Genres.
On trouve pour chacun d’eux les numéros d’exemples correspondants et le
nombre de descriptions. La répartition n’est pas homogène, elle illustre la
représentativité des Sous-Genres disponibles au moment de la récolte en mer
(échantillonnage très aléatoire lié à la compétence scientifique de l’équipage) et
dans la collection. Trois Sous-Genres sont rares (Thamnonema, Phialonema et
Onconema) alors qu’un autre est abondant (Cyliconema). Cette abondance est à
relier aussi au nombre de descriptions disponibles dans la littérature chez les
différents auteurs.
Par rapport au traitement de ces descriptions, M. Lévi espère voir apparaître une
classification dont il pourra a posteriori juger de l’efficacité (par rapport à l’état
de ses connaissances). Il s’agit pour lui de savoir s’il est opportun de faire
confiance à un système de classification artificiel pour son travail quotidien de
systématicien.
Le cheminement conceptuel
45
1.6 Conclusion
A la suite de toutes ces années d'expérimentation, nous nous apercevons que
nous avons traité la problématique de l'acquisition des connaissances à l'envers.
En effet, les cogniticiens de l'INRA ont commencé par utiliser des méthodes
d'élicitation de connaissances et la logique mathématique pour représenter le
savoir de l'expert sous forme de règles déductives ❶ (figure 1.8).
Or, ils se sont rendu compte que :
◊
◊
◊
◊
l'expert a des difficultés à exprimer ses règles oralement,
les domaines traités ne sont pas caractérisés par l'heuristique et
l'expérience acquise,
le formalisme des règles de production est inadapté à certaines formes de
raisonnement non monotone, les cas atypiques ou exceptionnels étant
difficilement pris en compte par ce formalisme,
la maintenance d'une base de règles est délicate, etc..
L'émergence des techniques d'apprentissage et des langages à base d'objets a
donné alors la possibilité de mettre au point des méthodes inductives d'extraction
de règles automatiquement à partir d'exemples représentés par des frames ❷. En
adoptant ce principe dans INSTIL, on a déplacé le problème de l'acquisition des
connaissances en amont, c'est-à-dire au niveau de l'acquisition des exemples à
l'aide d'un questionnaire. Les chercheurs en informatique espéraient de cette
manière générer un modèle du domaine automatiquement à partir du traitement
inductif des exemples [INSTIL Project Summary, p. 40, 1989]. C'était sans
compter la difficulté d'obtenir des descriptions de qualité pour apprendre de
bonnes règles [Conruyt & Piaton, 1987],[Conruyt, 1988]. Cette qualité découle
des bonnes observations que doit effectuer l'utilisateur du système, qu'il soit
expert ou non. En construisant plusieurs questionnaires sur un même problème
et en les confrontant à la réalité du terrain (le contexte de description et le
vocabulaire sont différents entre les utilisateurs et l'expert), l'expert s'est rendu
compte qu'il existait une structure fondamentale de description de son domaine
sur lequel devait s'appuyer le questionnaire pour guider correctement
l'observateur [Blancard, 1989]. Nous avons nommé cette structure le modèle
descriptif. Le cogniticien se doit de représenter correctement ces connaissances
de fond que l'on appellera aussi “l'observable” dans nos applications. Ces
connaissances implicites sont souvent “de bon sens” et dépendantes du domaine.
Le cogniticien ne peut pas se passer de l'aide de l'expert pour les expliciter.
Donc, le problème s'est encore déplacé d'un cran en amont afin de savoir
comment acquérir un bon modèle descriptif du domaine ❸. C'est finalement
cette question qui est pour nous à la source du problème de l'acquisition des
46
Chapitre 1
connaissances dans le contexte de l'apprentissage à partir d'exemples... de
qualité.
modèle descriptif
❸
exemples
❷
règles
❶
résultats robustes
Fig. 1.8 : Chronologie de notre approche de l'acquisition des connaissances
L'acquisition de cette 9 du domaine est aussi l'objet de recherches actives dans le
cadre de la modélisation des connaissances [Reynaud & Tort, 1994], [Charlet et
al., 1994] et de la méthodologie KADS [Breuker & Wielinga, 1989]. Mais leur
méthode et la notre n'ont rien à voir !
D'une part, leur approche est axée sur la modélisation du raisonnement de
l'expert : nous préférons déléguer la construction du raisonnement aux outils
d'apprentissage, qui renvoient une image résumée des connaissances de l'expert.
Ce dernier peut ensuite les analyser à la lumière des descriptions qu'il a
introduites. Ainsi, en faisant une interface entre l'expert et sa connaissance, nous
fournissons une aide à l'expert avant tout alors que la méthodologie KADS
fournit une aide au cogniticien pour éliciter les connaissances expertes.
D'autre part, bien qu'elle soit vue comme un standard de l'ingénierie de la
connaissance, KADS est une approche descendante, c'est-à-dire qu'elle a été
pensée au niveau conceptuel, puis appliquée ensuite dans différents domaines, la
plupart industriels. Pour nous, la méthodologie KADS est trop générique,
théorique et abstraite et ne s'adapte pas facilement aux spécificités des domaines
biologiques que nous voulons traiter. Comme nous l'expliquerons au chapitre 3,
la diversité et la complexité des objets naturels à traiter nous obligent à l'inverse à
expérimenter des solutions adaptées à des problèmes concrets posés par les
utilisateurs. Nous passons ainsi d'un niveau pratique à un niveau théorique
(approche expérimentale ascendante). En privilégiant l'observation et l'écoute
des besoins des utilisateurs, nous parions sur une adaptation progressive des
outils à leur demande, ce qui constitue pour nous le véritable défi de la
robustesse de l'acquisition des connaissances.
9
(Philo) : la partie de la métaphysique qui s'intéresse à l'Etre en tant qu'Etre [Petit Robert,
1993]. Il s'agit donc ici de décider quels sont les objets que l'on retient comme existant dans le
domaine selon leur pertinence vis à vis de l'objectif à atteindre.
Le cheminement conceptuel
47
En fait, nous sommes plus proches de la démarche expérimentale propre à la
Statistique telle qu'elle est exprimée par Tomassone [Tomassone, 1991] (voir
chapitre 2). Nous y ajouterons toutefois l'impératif d'expliciter le modèle
descriptif pour obtenir des données de qualité : c'est un élément majeur de la
robustesse des systèmes de détermination. Un des buts de cette thèse est
d'apporter une solution à ce problème d'acquisition de descriptions robustes
(observables et observées) dans le domaine de la biologie qui nous intéresse.
Pour nous, le modèle descriptif n'est pas l'ensemble des règles apprises par une
ou l'autre des techniques d'induction. Il n'est pas une intension du domaine
dévoilée par le traitement de l’observé comme pourraient le penser certains
informaticiens trop éloignés des applications. Le modèle descriptif est l'ensemble
des connaissances observables initiales exprimant la structure naturelle du
domaine que l'expert doit expliciter. Cette tâche permet la transmission de son
“savoir observer” au sein d'un questionnaire, véritable guide d'observation. En
utilisant ce guide, l'observateur est à même de fournir des descriptions les plus
complètes et cohérentes possibles qui soient l'image la plus proche des individus
ou spécimens à décrire.
Une fois que la source du problème de l'acquisition des connaissances a été
identifiée, nous sommes capables de reconsidérer la problématique dans le bon
sens, en partant d'un modèle descriptif du domaine et en procédant par étapes
jusqu'aux résultats :
1) Acquisition du modèle descriptif,
2) Acquisition des exemples ou des cas,
3) Traitement des connaissances descriptives,
4) Validation des résultats.
Il reste néanmoins à définir les objectifs du système afin de pouvoir adapter les
outils de traitement des descriptions. Les besoins des biologistes rencontrés au
MNHN sont multiples, mais parmi eux, les systématiciens et les naturalistes font
appel surtout à des outils d'aide à la classification et à l'identification de
spécimens, qui se basent sur leur travail quotidien.
48
Chapitre 1
II
QU'EST-CE QUE LA ROBUSTESSE ?
Dans le premier chapitre, nous avons fait l'historique de notre démarche fondée
sur l'utilisation des différentes solutions adaptées à la construction de systèmes
experts en pathologie végétale.
Nous voici maintenant devant un nouveau problème de classification et de
détermination dans le domaine de la systématique. Au départ, nous avions à
notre disposition un logiciel d'apprentissage automatique de règles de décision à
partir d'exemples : KATE [Manago & Conruyt, 1989]. Si nous savions
comment opérer avec les exemples (par induction), l'utilisation de cet outil
supposait préalablement réglées deux questions importantes :
1) Quelles descriptions traiter ?
2) Comment les acquérir ?
Une troisième difficulté a été identifiée lors de résultats expérimentaux dans une
application de détermination d'objets militaires [Manago, 1991]. En présence
d'observations incomplètes (dues au camouflage par exemple), le système expert
engendré par KATE pouvait fournir un diagnostic incertain et ne pas lever
l'ambiguïté entre un char et de l'artillerie légère !
Les deux premières questions sont de nature qualitative : la qualité des exemples
à apprendre est une caractéristique importante avant leur traitement ; elle dépend
du bon déroulement de la procédure de description elle-même. Nous montrerons
ce premier aspect de la robustesse de la description dans ce chapitre.
Ensuite, nous relierons la troisième question à la robustesse de la
consultation face aux valeurs manquantes ou réponses «inconnu». Nous
verrons dans cette thèse comment nous sommes parvenus à répondre à ces
différentes questions sur la robustesse. Mais, auparavant, nous allons étudier ses
différents aspects théoriques et pratiques ainsi que ses diverses interprétations
dans la communauté scientifique et parmi les utilisateurs.
50
Chapitre 2
2.1 Aspects théoriques
2.1.1 La robustesse statistique
L’étude statistique d’une base d’exemples vise à produire un résumé d’un fichier
de centaines exemples décrits par des dizaines de variables. Ce résumé prend la
forme d’un arbre dont chaque nœud correspond à une partie des exemples ayant
les mêmes valeurs pour certaines variables. De même qu’un histogramme est une
image qui résume un fichier uni-colonne, un arbre est avant tout une image
résumée d’un fichier multi-colonnes correspondant à des variables n’ayant qu’un
petit nombre de valeurs [Crémilleux, 1991]. Le processus par lequel on
synthétise les exemples est appelé induction.
Pour résumer l’information, les systèmes d’apprentissage inductif recherchent
des régularités dans les données d’observation initiales en utilisant des critères
numériques issus des statistiques (χ 2, critère de Gini, entropie de Shannon,
etc.), ce qui permet de prendre des choix décisifs pour partitionner les exemples.
La séparation est censée avoir une signification statistique, c'est-à-dire qu’elle ne
découle pas simplement du hasard [Gascuel & Carraux, 1992]. Le principe de
construction des arbres de décision est expliqué au chapitre 7.
L’objectif des statisticiens est d’utiliser ces arbres comme un moyen efficace de
prédire le classement de nouvelles observations avec un taux minimal d’erreurs.
C’est le pouvoir prédictif de l’arbre qui détermine sa robustesse statistique dans
ce contexte [Breiman et al., 1984]. Une recherche de Mingers sur des données
empiriques [Mingers, 1989] aboutit à la conclusion que ce n’est pas tant le choix
de la mesure qui importe mais plutôt celui de l’élagage de l’arbre final. Ainsi, le
programme CART extrait le meilleur sous-arbre en utilisant soit un critère
d’élagage pour les grosses bases d’exemples, soit une validation croisée
lorsqu’il y a peu d’exemples [Gomes, 1992].
La robustesse statistique suppose néanmoins certaines hypothèses probabilistes
posées a priori de manière à pouvoir estimer la reproductibilité des résultats de
classement des nouvelles observations :
◊ la représentativité de la base d’exemples nécessite de considérer la fréquence
d’apparition des exemples dans la population, les cas rares n’ayant pas le
même poids statistique que les cas “typiques”1,
◊ l’échantillonnage se fait de manière aléatoire en suivant un modèle de
distribution de la population étudiée.
1
Pour une explication des différents sens du terme “typique”, on peut se référer à [Lebbe,
1991].
Qu'est-ce que la robustesse ?
51
2.1.2 Le formalisme mathématique de description
La conception d’outils informatiques adaptés aux problèmes des biologistes
nécessite à la fois l’utilisation de techniques en statistiques, en analyse de
données, en intelligence artificielle, en ergonomie et en psychologie cognitive.
Le sujet se situant à la frontière de ces différents domaines, il est important de
présenter formellement les problèmes tels qu’ils se posent aux biologistes de
manière à pouvoir faire comprendre leur nature aux différentes communautés
amenées à les résoudre. Le langage mathématique est ainsi le dénominateur
commun permettant une meilleure communication entre les personnes concernées
et se trouve par conséquence être un facteur important de la robustesse des
solutions apportées. C’est pourquoi le chapitre 5 expose le formalisme
mathématique de description des sujets étudiés au MNHN, ce même formalisme
étant ensuite exploité dans le chapitre 7 pour la description des algorithmes de
traitement des exemples.
2.1.3 Combiner du numérique et du symbolique
L'approche numérique qui est utilisée dans le traitement permet de discriminer
efficacement un grand nombre d'exemples tout en tenant compte des petites
variations dans les descriptions. Elle permet aussi de détecter un type de bruit
particulier ou deux exemples portent la même description tout en n'appartenant
pas à la même classe : on a alors à faire à une ambiguïté totale, ce qui laisse
supposer à l'utilisateur que les mêmes causes ne produisent pas les mêmes
effets. Or, la mise en évidence d'un tel “clash” (Crémilleux, 1991) peut faire
réagir l'expert : il peut s'apercevoir qu'il a oublié de décrire un caractère
discriminant entre les deux exemples (désambiguation).
L'approche symbolique permet de représenter des connaissances complexes en
indiquant les dépendances entre objets, attributs et valeurs ainsi que des règles de
cohérence pour chaque description. Elle donne aussi la possibilité d'introduire
des connaissances complémentaires aux exemples pour traiter certains bruits
(voir plus loin) [Manago, 1988]. En les explicitant, l'apprentissage symbolique
fournit des explications justifiées par la présence de connaissances non fortuites
[Kodratoff, 1991].
L'intégration des deux approches améliore la robustesse globale du système.
52
Chapitre 2
2.2 Aspects pratiques
Nous avons déjà donné une définition de la robustesse que nous qualifions
d’empirique car basée sur les pratiques des utilisateurs : c'est l'ensemble des
facteurs qualitatifs qui améliore l'acquisition des connaissances sur le domaine
ou encore permet d'éliminer certaines faiblesses liées à l'utilisation des outils.
2.2.1 Les facteurs qualitatifs
2.2.1.1 Fiabilité
Dans le cadre de la validation des systèmes experts en pathologie des plantes à
l'INRA, nous avons évalué la fiabilité des résultats d’identification lorsque
les programmes sont mis dans les conditions normales d'utilisation, c'est-à-dire
entre les mains des techniciens et des agriculteurs qui n'ont pas la même manière
d'observer que l'expert.
Dans le cadre de l'apprentissage, nous avons constaté que la fiabilité des
résultats dépendait surtout de la qualité des données en entrée (§ 1.3.4). Nous
nous sommes alors attaqués en priorité à la robustesse de l'acquisition des
connaissances, c'est-à-dire non pas à celle des règles élaborées par méthode
d'élicitation comme pour les systèmes experts de première génération, mais à
celle des données initiales sur lesquelles va s'opérer l'induction : on suppose que
le traitement qui suivra, s'il est bien justifié, donnera des règles et des résultats
fiables par rapport aux données robustes.
Les données en entrée sont de deux sortes : les premières sont des
connaissances observables et générales sur le domaine, représentées dans le
modèle descriptif. Les secondes sont des connaissances observées
spécifiques, correspondant aux exemples d'apprentissage. Cette distinction au
niveau des descriptions est fondamentale pour évaluer leur fiabilité.
2.2.1.2 Compréhension
Pour obtenir des données robustes, il est nécessaire de bien comprendre le
domaine. Ceci est d'abord vrai au niveau de la compréhension entre l'expert et le
cogniticien ; le fait que ce dernier ait une compétence ou une sensibilité sur le
domaine facilite grandement le dialogue. Mais surtout, comme les utilisateurs qui
identifient des échantillons ont des niveaux de connaissance très variés sur le
sujet, la phase de modélisation pour acquérir l'observable est un travail d'équipe
essentiel entre l'expert et le cogniticien. Le but est de réfléchir sur les aspects
terminologiques afin de trouver une structure de description des composants du
Qu'est-ce que la robustesse ?
53
domaine qui soit cohérente, bien comprise et bien interprétée par les utilisateurs
ciblés. Il s’agit d’une chasse aux ambiguïtés de toute nature.
L'adaptation au niveau de compréhension de l'utilisateur est un facteur important
de la robustesse. Par exemple, pour que des douaniers utilisent efficacement un
système expert d'identification des espèces menacées d'extinction, il leur faut un
guide d'observation et un vocabulaire adapté pour se familiariser avec les
critères souvent pointus de discrimination entre deux espèces (l'une protégée par
la convention de Washington et l'autre non). Ces personnes “naïves” par rapport
à l'observation utiliseront d'autant mieux le questionnaire de saisie des
descriptions que celui-ci est bien structuré, des dessins explicatifs illustrant le
vocabulaire spécialisé.
2.2.1.3 Précision
La précision intervient dans le degré de finesse du processus de classification
et/ou d'identification. C'est pourquoi il convient de fixer des limites au niveau
des détails de description à fournir au niveau de l'observable. Les descriptions
détaillées dépendent des techniques d'observation possibles au moment de
l'identification. Par exemple, pour reconnaître des espèces d'Hydraires, il peut
être avantageux d'utiliser les possibilités d'observation du microscope à balayage
électronique si les utilisateurs ont accès à ce type de matériel.. Cela donne la
possibilité d'introduire des caractères internes de différentiation des
nématocystes (capsules urticantes) dans le modèle descriptif. Mais on peut aussi
se contenter des formes extérieures de ces mêmes composants qui ne nécessitent
qu'une observation au microscope optique (au plus fort grossissement
toutefois). Le choix est un compromis opérationnel qui dépend des objectifs de
la description et des moyens disponibles pour l'observation.
La précision est aussi un facteur que l'on peut rapprocher de la justesse des
descriptions observées. Ces dernières doivent représenter fidèlement la réalité
des échantillons au moment de leur saisie dans le questionnaire.
2.2.1.4 Exhaustivité
Une fois fixés les objectifs, l'exhaustivité des caractères mis en jeu dans le
modèle descriptif est alors très importante. Nous pouvons alors cerner le
problème observable, nous assurer de sa complétude par rapport au domaine qui
a été bien délimité, et ainsi répertorier les valeurs admissibles dans le
questionnaire. L'exhaustivité au niveau de l'observable implique de fournir à
l'expert une certaine souplesse d'expression, avec un langage de représentation
des connaissances suffisamment puissant : logique multi-valuée, avec variables
(ordre 1), taxonomie de valeurs, démons entre objets du modèle, etc.. Pour les
utilisateurs, le langage est néanmoins rendu transparent au niveau syntaxique par
54
Chapitre 2
une interface de saisie conviviale. En outre, il est bon de favoriser l'expression
sémantique des caractères, leur interdépendance, le choix judicieux des valeurs
possibles par rapport à la signification de l'attribut (monosémie des caractères).
L'exhaustivité doit se concrétiser aussi au niveau des descriptions observées qui
devraient être complètes par rapport à l'échantillon disponible. Par exemple, il
est bon d'indiquer à l'utilisateur d'éviter les idées préconçues sur le diagnostic de
l'échantillon : il s'agit d'un biais qui le polarise sur la description des symptômes
correspondants. La règle serait d'éviter que l'utilisateur décrive ce qu'il cherche
plutôt que ce qu'il peut voir sur la plante !
2.2.1.5 Cohérence
Notre objectif est d'assurer une certaine cohérence du modèle descriptif au
niveau de la définition du statut des caractères (“objet-attribut-valeur”), ainsi que
dans celle des relations entre les objets observables (objets de type composant,
point-de-vue, spécialisant). Ce facteur oblige l'expert à plus de rigueur et de
rationalité dans sa manière de structurer son modèle descriptif (par exemple en
appliquant la règle de définir les objets du plus général au plus précis).
Une fois ce travail accompli, une autre cohérence intervient en phase
d'acquisition des exemples à apprendre : c'est celle de l'ajustement de l'observé
par rapport à l'observable. Elle permet d'éviter les oublis éventuels non
perçus lors du remplissage du questionnaire. En effet, lorsqu'il s'agit de passer
de l'observable à l'observé (le modèle descriptif servant de moule à la
constitution d'un questionnaire “guide d'observation”), tous les caractères
(objets et attributs) seront passés en revue lors d'une consultation pour que
l'utilisateur puisse affirmer soit leur présence (ou absence), soit le fait que l'on
ne peut pas les renseigner (réponse «inconnu»). Au départ de la description,
chaque caractère est sans statut (présent, absent ou inconnu). La vérification des
oublis doit intervenir à la fin lorsque l'utilisateur indique qu'il a fini sa
description : elle est appliquée pour assurer la cohérence de l'utilisateur vis-à-vis
de ses réponses (différence entre l'oubli et l'inconnu).
2.2.1.6 Redondance
Ensuite, nous mentionnerons le rôle de la redondance dans la représentation de la
diversité de l'observé. En effet, pour nos classifications biologiques, l'exception
a autant d'importance que le cas général pour découvrir et caractériser le
continuum entre les Espèces. Le cas particulier n'est pas un biais à éviter mais
plutôt une richesse à représenter dans les descriptions. Pour une classe donnée,
nous souhaiterons acquérir sa couverture la plus large possible en nombre
d'exemples. Cela correspond à la vision extensive de la définition d'une classe
ou encore définition d'un concept du point de vue des exemples [Smith &
Qu'est-ce que la robustesse ?
55
Medin, 1981]. L'objectif est donc de multiplier le nombre de descriptions d'une
même classe même si elles se ressemblent fortement. Cette manière de procéder
n'est pas superflue du fait de la variabilité naturelle observée au niveau des
spécimens.
2.2.1.7 Mise à jour
Comme il n'est pas possible pratiquement de tout prévoir dès le départ dans le
modèle descriptif, la mise à jour des connaissances est un facteur de robustesse à
prendre en compte obligatoirement. Par exemple, des nouvelles maladies
apparaissent tous les ans en pathologie végétale ou encore une maladie déjà
répertoriée montre des symptômes différents une certaine année. Le but est de
savoir maintenir la base d'exemples en fonction des modifications apportées
dans le modèle. Ce facteur est à relier au critère plus global d'incrémentalité
temporelle (voir plus loin). Il donne tout son sens à la robustesse empirique dont
la nature évolutive est fondée sur la découverte et l'interactivité avec l'expert. De
son coté, la robustesse statistique se concentre plus sur les conditions de la
reproductibilité des résultats de classification. Ces deux aspects de la robustesse
ne sont pas incompatibles.
Néanmoins, la représentativité des données n'est pas un critère applicable dans le
domaine de la systématique : nous avons affaire à relativement peu de données
par classe (en nombre d'individus) par rapport au nombre de variables
possibles : chaque individu est complexe à décrire. Dans ce contexte, la manière
de les décrire est sujette à de multiples révisions.
Les modifications à apporter font suite à la procédure de validation des
connaissances apprises. Elle intervient aussi bien après le traitement des données
qu'au moment de l'aller-retour entre la définition du modèle descriptif et la saisie
des exemples dans le questionnaire. La robustesse empirique procède de manière
cyclique à l'aide de la mise à jour et va dans la direction d'une plus grande
précision des résultats. Ce principe est de plus en plus à l'ordre du jour des
recherches en apprentissage et en raisonnement à partir de cas [Utgoff, 1989],
[Aamodt, 1989].
2.2.1.8 Ergonomie
Citons encore l'ergonomie qui est tout ce qui facilite l'utilisation des outils
(modèle descriptif, questionnaire, système expert) et rend la consultation plus
agréable. Par exemple, la convivialité doit faciliter la communication entre la
machine et l'utilisateur. L'interactivité est l'ensemble des fonctionnalités et des
performances du système informatique qui permet la réalisation d'une tâche sans
perturber le processus mental que l'utilisateur suit pour l'accomplir. C'est aussi
56
Chapitre 2
la capacité de l'utilisateur d'interrompre le raisonnement en cours et de garder le
contrôle sur la machine [Bove & Rhodes, 1990].
Le but de la convivialité est d'obtenir un outil simple d'emploi. Cela peut être
accompli grâce aux possibilités hypermédia (hypertexte, image, son, vidéo) du
Macintosch ainsi que de programmes comme HyperCard avec son langage
HyperTalk [Apple, 1988]. Ces outils permettent de représenter la connaissance
de manière visuelle, chaque nœud ou objet du modèle étant symbolisé par une
carte qui peut recevoir une image ou un dessin expliquant le concept et des
boutons pour se déplacer vers d'autres objets. L'utilisateur n'a qu'à pointer sur
l'objet désiré et cliquer pour y aller, ce qui est très naturel. Un intérêt est par
exemple d'utiliser une palette de couleurs ou des dessins à la place du choix des
valeurs (les mots) elles-mêmes par l'utilisateur. Il n'a plus qu'à cliquer sur la
représentation visuelle au lieu d'interpréter le nom associé, ce qui peut provoquer
des erreurs de description.
Néanmoins, l'ergonomie ne se résume pas seulement à employer des outils
conviviaux (point de vue statique). Il faut savoir les utiliser à bon escient,
organiser la connaissance pour satisfaire à l'objectif d'interactivité (point de vue
dynamique). Par exemple, les nœuds sont reliés entre eux au sein d'une
hiérarchie arborescente à explorer qui n'est pas un réseau sémantique multidirectionnel. La navigation est ainsi orientée par la volonté pédagogique de
l'expert de guider l'observation selon un ordre bien établi (du général au
particulier). Il pourra très facilement rajouter des explications ainsi que des
messages d'aide à l'observation à l'aide de boutons (quoi faire, comment faire,
mise en garde avant une action, alerte après, etc.) pour éduquer l'utilisateur.
Rada et Barlow (1989) ont gagé sur l'avenir de “l'expertexte” qui mixe les deux
technologies des systèmes experts et de l'hypertexte. Nous y ajouterons
simplement la technologie multimédia pour ses capacités ergonomiques et
éducatives [Hooper, 1990].
Dans ce travail, nous juxtaposerons toutefois les deux approches sans les
mélanger : nous utiliserons l'hypertexte avec HyperQuest dans le cadre de
l'acquisition des descriptions en amont de la phase d'apprentissage. Le système
expert engendré par KATE est un programme écrit en C et sa consultation aura
lieu dans cet environnement. Les deux modules sont bien séparés. Ces deux
applications communiquent leurs connaissances par l'intermédiaire de fichiers
ASCII (modèle descriptif et exemples). Leur véritable intégration sera envisagée
à la suite de cette thèse à l'aide des “Apple Events” qui autorisent la
communication plus facilement entre les applications.
Qu'est-ce que la robustesse ?
57
2.2.1.9 Tolérance aux bruits
Enfin, nous mentionnerons le facteur de robustesse qui nous parait le plus
important : la tolérance aux bruits. Dans INSTIL, il y avait deux problèmes
attachés au bruit : la détection et le traitement. Pour le premier aspect, les
différentes sortes de bruit ont été identifiées et répertoriées au niveau des trois
phases de l'acquisition des connaissances : collecte et observation, description,
diagnostic. La classification de la figure 2.2 en donne un résumé (voir plus loin).
Pour le second aspect, une bonne partie des bruits des différents maillons de la
chaîne a pu être traitée avant la phase d'apprentissage afin d'obtenir des
exemples de qualité. Les moyens à mettre en œuvre pour minimiser ces bruits
«de terrain» sont décrits dans [Conruyt & Piaton, 1987].
Néanmoins, d'autres bruits plus «abstraits» sont par exemple la difficulté
d'observation d'un caractère, son polymorphisme, son coût, la fiabilité du
diagnostic, la tolérance d'une coupure autour d'un seuil d'une variable
numérique, l'importance d'un caractère comme critère de classification. Ils
nécessitent une représentation symbolique explicite dans les exemples pour leur
traitement [Manago & Kodratoff, 1987]. Ce travail a été réalisé en introduisant
des propriétés supplémentaires dans la définition des attributs [Manago, 1988],
[Conruyt & Lesaffre, 1988] :
◊ Confiance
Ce paramètre définit simplement le coefficient de vraisemblance d'une
information. Sa valeur sera “faible” si l'attribut est difficile à observer. Les
attributs ayant un faible degré de confiance sont utilisés le plus tard
possible durant la construction de l'arbre de décision.
◊ Recouvrement
Lorsque des valeurs se recouvrent, comme par exemple, [couleur tache
(recouvrement (brun beige) (brun noir))], la sélection des exemples à un
nœud de l'arbre de décision pour le test “couleur(tache)” tiendra compte de
la polymorphie des couleurs : pour la valeur “noir”, on retiendra pour
construire le sous-arbre tous les exemples dont la couleur de la tache est
aussi “brun”.
◊ Coût
Ce paramètre indique le prix à payer (financier, temps d'attente, etc.) pour
obtenir la réponse au test demandé. Par exemple, faire un test de
laboratoire (isolement bactérien, viral) possède un coût élevé. On essayera
donc d'abord les tests bon marché pour construire les règles de décision.
◊ Fiabilité
Il s'agit ici de la confiance que l'expert accorde au diagnostic d'un
exemple. C'est une mesure de la qualité d'un exemple en terme de
58
Chapitre 2
diagnostic. Ce test a pu être utilisé par Main pour privilégier l'utilisation
d'exemples fiables lors de la sélection du noyau.
◊ Tolérance
Les seuils numériques ont un caractère tranché qui ne convient pas
toujours à la précision des mesures effectuées. On peut donc considérer
qu'il existe une marge d'erreur possible autour de ce seuil qu'il est
intéressant de spécifier. La tolérance est donc une mesure de recouvrement
lorsque l'on compare des valeurs numériques. Elle peut être explicitée de
manière relative ou absolue.
◊ Priorité
Ce dernier paramètre permet à l'expert d'influer sur la classification. Les
caractères n'ont pas tous la même importance de son point de vue pour
caractériser une classe ou un diagnostic. La prise en compte de la priorité
de certains caractères peut se faire par exemple au niveau du calcul
d'entropie pour classer les attributs ayant le même gain d'information au
nœud courant.
Tous ces paramètres sont des connaissances symboliques supplémentaires qui
tiennent compte des spécificités du domaine. Elles doivent être explicitées dans le
modèle descriptif en fonction des besoins exprimés par l'expert.
2.2.1.10 Adaptation aux besoins exprimés
En ce qui concerne l'application des éponges marines au MNHN (§ 1.5.3),
l'introduction de ces paramètres pour traiter ces différentes sortes de bruit n'est
pas demandée. En particulier, il n'y a pas d'a priori sur la priorité d'un caractère
pour construire une classification. Il faut dire que dans cette application, l'expert
est à la fois professeur et descripteur, il n'y a pas une grande variabilité
d'utilisateurs potentiels du système expert. La demande est plutôt celle d'adapter
des outils d’aide à la classification au travail quotidien des biologistes
systématiciens.
Ainsi, nous devrons nous adapter à la démarche naturelle de l'expert qui est la
suivante :
1) observer et se familiariser,
2) représenter les observations => établir des descriptions,
3) bâtir des hypothèses à partir des descriptions (pré-classées ou non)
=> construire des règles de classification,
4) les éprouver par de nouveaux faits => conduire une détermination.
Nous chercherons donc à construire une méthode d’acquisition des
connaissances qui s’appuie sur différents savoir-faire tels que les capacités
Qu'est-ce que la robustesse ?
59
d’observation, de description et de raisonnement des systématiciens et qui tienne
compte à la fois de leurs objectifs et de la nature des données à analyser.
Notre démarche n’est pas de choisir un modèle théorique et trouver une
application qui permette de le valider. Au contraire, à partir d'objectifs précis et
avec une application bien délimitée possédant certaines difficultés de
représentation, nous voulons concevoir un modèle de résolution qui s’adapte au
domaine. Un objectif est par exemple la découverte de règles pertinentes pour
la classification en appliquant la méthode expérimentale fondée sur l'observation
intime des faits. Ces règles n'auront pas forcément de signification statistique si
l'on considère que la base d'exemples à traiter n'est pas stochastique mais bien
déterministe [Mingers, 1987].
En effet, il est souvent difficile dans les applications en biologie d’émettre les
hypothèses simplificatrices suivantes :
◊
◊
◊
◊
◊
◊
complétude de l’ensemble d’apprentissage,
tirage aléatoire des données,
monotonie de la connaissance,
nature de données (certaines ou probabilistes),
existence d’une théorie du domaine complète et formalisée,
indépendance des variables entre elles, etc..
Partant de ce constat, nous allons définir des critères d'appréciation de la
robustesse qui englobent les facteurs qualitatifs précédents.
2.2.2 Les critères globaux d'appréciation
Dans notre approche de la robustesse, nous ne sommes définitivement pas dans
un univers caractérisé par les probabilités et les lois a priori, mais bien dans un
monde de diversité, d’incomplétude et où l’exception pourrait bien être la seule
règle valide. Dans ce contexte, les critères d'appréciation de la robustesse seront
les suivants :
2.2.2.1 Applicabilité à des domaines réels
Comme nous l'avons dit plus haut, le but est de résoudre un problème concret
posé en biologie et de s'adapter au domaine étudié. Le but n'est pas de valider un
modèle théorique déjà établi. Le rôle de l'informaticien est de suivre la démarche
naturelle de l'expert. Ce critère fait appel aux facteurs de compréhension du
domaine et d'adaptation aux besoins exprimés par les utilisateurs.
2.2.2.2 Un langage de représentation puissant
60
Chapitre 2
Le langage de représentation permet à l’expert de pouvoir exprimer toute sa
connaissance dans les descriptions. Il ne doit pas être contraint par certaines
limitations arbitraires de la logique (des propositions par exemple). Elles
l'empêcheraient par exemple de représenter des objets de même type présents
conjointement chez un même individu (voir la logique d'itération au § 4.4.6). De
plus, cette représentation doit être transparente pour l’expert, la syntaxe de
représentation ne le concernant pas, des outils conviviaux et interactifs d’aide à la
description doivent l’assister dans cette tâche. L'exhaustivité et l'ergonomie sont
les deux facteurs importants.
2.2.2.3 Facilité de mise en oeuvre par les utilisateurs
S'adapter au domaine, c'est prendre en compte les besoins des utilisateurs qui ne
sont pas des informaticiens. Il faut donc leur fournir des outils suffisamment
simples d'accès, attrayants et conviviaux. Il convient de faire attention à la
complexité des paramètres d’apprentissage introduits que l’utilisateur final aura
du mal à maîtriser. Ceux-ci peuvent être des choix de configuration d'interface,
des choix de différentes mesures statistiques pour le traitement, des possibilités
de pondération (coût de description d'un objet), des contraintes, des seuils...
En fait, il est nécessaire de bien observer les attitudes et comportements des
utilisateurs finaux du système afin de leur fournir des outils dédiés à leurs
besoins. Il faut se prémunir contre la tendance naturelle des informaticiens à
vouloir fabriquer des outils “génériques” applicables dans n’importe quel
domaine et que l'on appelle ensuite des “usines à gaz” du fait de leur difficulté de
mise en œuvre et de leur inadéquation au problème posé. Chaque domaine
possède sa propre spécificité à laquelle l'outil devra s'adapter s’il veut réellement
répondre à une attente.
Inversement, le système ne doit pas être trop “spécifique” afin de ne pas devoir
développer un nouvel algorithme à chaque fois que l’on change d’application.
L'ergonomie, l'adaptation aux besoins exprimés et la compréhension sont les
trois facteurs qui facilitent l'utilisation du système.
2.2.2.4 Incrémentalité
C'est une caractéristique fondamentale trop souvent négligée par les concepteurs
car dépendant du choix des algorithmes retenus dans le système. Il existe deux
définitions de l’incrémentalité dans la littérature. La première, dite spatiale, vise
à traiter des bases de données de taille importante dans lesquelles il existe déjà
une structure d’arbre de décision A. Sans qu’il soit nécessaire de reconstruire un
arbre complet T à partir de tous les cas, ID5R [Utgoff, 1989] prend en compte
l’ancien arbre A et à partir des nouveaux exemples, modifie la structure de
manière à obtenir le même T. La seconde définition, dite temporelle, part du
principe que l’apprentissage est un processus continu et donc les connaissances
doivent évoluer à chaque fois qu’un nouvel ensemble d’expériences est réalisé.
Qu'est-ce que la robustesse ?
61
En conséquence, le traitement des exemples doit s’effectuer par lot et les
connaissances produites à partir des ensembles précédents sont modifiées pour
prendre en considération les nouveaux exemples. Cette manière de procéder
permet de pallier l’incomplétude de l’ensemble des exemples de départ. La prise
en compte de ces deux définitions dans la conception du système rend possible
son application sur des bases de données importantes et/ou incomplètes.
L'incrémentalité temporelle est celle que nous souhaitons appliquer. Elle fait
appel aux facteurs de mise à jour, de cohérence (entre le modèle descriptif et les
données) et de redondance (nouvelles données par rapport aux anciennes).
2.3 Discussion
Généralement, on dit qu'un système d’apprentissage est “robuste” s’il permet
d’obtenir des résultats satisfaisants par rapport à un ensemble d'hypothèses de
départ. Cette définition très générale de la robustesse laisse la porte ouverte à de
multiples interprétations. L’appréciation du résultat est laissée au jugement de
n’importe quel type d’utilisateur, qu’il soit informaticien, statisticien, biologiste,
expert ou béotien. Or, les idées de ces différents utilisateurs sur la question ne
sont pas toujours partagées, loin s’en faut !
2.3.1 L'informaticien
Pour lui, un système robuste traite des données pour obtenir des résultats aussi
bons que ceux de l'expert. S'il possède une formation académique basée sur les
mathématiques, il supposera que les exemples ont été recueillis convenablement
selon un protocole d'échantillonnage précis. S'il est chercheur, le traitement est
alors considéré comme la partie “noble” de l’acquisition des connaissances pour
valider des solutions algorithmiques, parce que la phase de saisie des données
est peu valorisable du point de vue scientifique. Il est d’ailleurs révélateur de
constater que de son point de vue, le terme de validation des connaissances est
dépendant du traitement qui a été préalablement effectué sur les données. Nous
verrons dans notre approche que ce terme s'applique bien avant dans la phase
d’acquisition des exemples à l’aide d’un questionnaire (la phase d'observation et
de description est la véritable phase d'apprentissage pour le biologiste).
2.3.2 Le statisticien
Il argumenterait qu’un système robuste est doué d’une forte capacité de
prédiction sur des exemples qu’il n’a pas vus, ce qui est le critère de qualité
d’un bon système d’apprentissage. Il présuppose que les exemples à apprendre
sont distribués selon une loi normale et correspondent à un modèle mathématique
établi à partir des hypothèses suivantes :
◊ équi-possibilité des valeurs de chaque variable,
62
Chapitre 2
◊ indépendance des événements liés aux attributs (variables explicatives),
◊ tirage au hasard des individus de l'échantillon étudié (échantillonnage
aléatoire) dans une population nombreuse et déterminée.
Certains statisticiens ont néanmoins une vision plus dynamique de la
robustesse : pour Tomassone (1991), la Statistique est un guide pour toute
démarche scientifique expérimentale. Elle demande de s'impliquer totalement
dans l'analyse d'un monde “réel” incomplet et flou pour aboutir à sa
représentation “virtuelle” obligatoirement schématique. Appliquer la Statistique
requiert un assemblage ad hoc de trois composants : un Objectif, un Modèle, des
Données.
L'objectif O correspond à un ensemble de questions auxquelles la Statistique est
capable de répondre. Pour O fixé (ex : classification de plusieurs populations en
classes homogènes), il existe au moins un modèle M qui permet de l'atteindre.
Par modèle M, il faut comprendre deux éléments : une technique de sélection des
données D (échantillonnage, plan d'expérience) et une technique de traitement
des données quand on les aura acquises. Simultanément, un modèle M a besoin
de certaines données D pour pouvoir être appliqué. Pour un utilisateur, il est
indispensable de savoir quelles données D sont nécessaires pour utiliser M, et
donc pour atteindre l'objectif O qu'il s'est fixé.
Pour ces statisticiens, la robustesse liée à l'acceptation du résultat découle d'un
va-et-vient entre M et D autour de O fixé (figure 2.1). Cette robustesse est
provisoire tant que des éléments nouveaux ne viennent pas contredire le résultat
précédemment acquis.
monde
réel
problème
objectif
questions
connaissances
initiales
modèle
données
représentation
virtuelle du
monde réel
échantillonnage
traitement
hypothèses
résultats
vérification
validation
expert
Fig. 2.1 : La robustesse dans la démarche statistique [Tomassone, 1991]
63
Qu'est-ce que la robustesse ?
2.3.3 Le biologiste
Sa démarche est basée sur l'expérimentation. Conscient des problèmes liés à
l’acquisition des connaissances sur du matériel vivant, il pourra dire qu’un
système robuste est capable de minimiser les erreurs dues aux “bruits” dans
l'acquisition des exemples. Lors du projet INSTIL, en tant qu'étudiants en
agronomie, nous avons pu détecter différentes sources de bruits lors des phases
de collecte, d'observation et de description des échantillons de plants de tomate
malades. La figure 2.2 en donne une classification pratique :
Sources du bruit
n
Polymorphisme naturel
Rep
Collecte
atio
erv
Obs
rés
ent
Représentativité
n
Connaissances écrites
Spatiale,Temporelle
Variabilité
tion
ni
Défi
De
(U scri
tili pti
sat on
eu
r)
Interprétation visuelle
Technique d'observation
atio
ert)
(Exp
Observable
Observé
Objets du modèle descriptif
Questionnaire
Ergonomie
Présentation
Classe (diagnostic)
Oubli
Manquants
Incomplétude
En trop
Non pertinents
Inappropriés
Ambigus
Erreur
Incomplète
Subjectivité
Difficulté
d'interprétation
Ex : toucher
Orthographe
Erreurs
Descriptions
Mesures
Oubli
Exemple à
apprendre
Caractère à
renseigner
Non-réponse
de l'utilisateur
Polymorphisme conceptuel
Contexte d'observation
Vocabulaire inadapté
Trop spécialisé
Normes
Coût d'observation
Attente de mise en culture
Microscope
Mal positionnés
Question mal posée
Seuillage
Dessin explicatif
Structure en objets
Statut Objet-Attribut-Valeur
Fig. 2.2 : Classification des différents types de bruits dans INSTIL
L’un de ces bruits est la non-réponse de l’utilisateur à une question posée par le
système expert lors de la procédure de détermination (en fait, la réponse est
64
Chapitre 2
«inconnu», ce qui n’apporte aucune information). Par exemple, le technicien
agricole vient consulter le système de diagnostic TOM avec uniquement les fruits
sur lesquels il observe des taches. Si l'arbre de décision engendré par KATE a
choisi un premier critère de discrimination sur le feuillage (avez-vous observé
des taches sur feuilles ?) et que l'utilisateur n'a pu faire l'observation demandée,
le diagnostic obtenu risque d'être incertain. Étant confrontés à ce problème lors
du démarrage de cette thèse, le terme de robustesse est apparu à ce moment pour
y faire face. Il nous fallait trouver une solution pour résoudre ce bruit dans les
consultations. Nous illustrerons la robustesse face aux valeurs manquantes en
phase de consultation sur l’application des éponges marines (voir chapitre 7).
Notons que cette expression a été utilisée par d'autres chercheurs en psychologie
cognitive pour illustrer le même problème [Sutcliffe, 1986].
2.3.4 Le béotien
Il considérera le système robuste s'il “résiste” aux inexactitudes lors des
réponses au questionnaire et qu'il arrive à résoudre son problème correctement
tout en lui fournissant quelques explications. C’est son degré de satisfaction qui
détermine son appréciation. Lorsque l'utilisateur est “naïf par rapport à
l'observation”, c'est-à-dire qu'il ne connaît pas la démarche d'expertise et n'a
pas forcément une bonne pratique d'observation, il sera séduit par les capacités à
la fois pédagogiques et de vulgarisation du système, se considérant peut-être luimême comme un «bruit» pour le bon déroulement du raisonnement du système
expert.
2.3.5 L'expert
Il auto-référencera la robustesse du système à sa propre manière “intuitive” de
traiter les exemples. C’est la validité des conclusions du système qu’il est en
mesure d’évaluer. Il s’agit là de son évaluation subjective sur la qualité d’une
classification. Sa satisfaction peut être liée à différents facteurs [Niquil, 1993] :
◊
◊
◊
◊
exactitude des règles apprises par rapport aux exemples soumis,
présence ou absence souhaitée a priori de certains critères classificatoires,
ordre de ces critères dans l’arbre de classification,
degré de généralisation, etc..
Pour nous, l’objectif principal pour acquérir un système robuste est d’arriver à
faire plus participer l’expert dans le fonctionnement du système car il est le
garant de cette robustesse. Généralement, son rôle se borne à la fourniture de
l’ensemble des exemples et à la validation des connaissances apprises. Il est
effectivement intéressant de le faire intervenir au cours du traitement des
exemples pour ajuster des paramètres et modifier le comportement du système.
65
Qu'est-ce que la robustesse ?
Mais cela ne suffit pas. Le fonctionnement du système ne peut pas se réduire au
simple traitement des données comme s’il s’agissait d’un aboutissement !
Comme pour l'approche statistique [Tomassone, 1991], nous avons bien
conscience que l’acquisition des connaissances n’est pas un processus linéaire
mais bien itératif et que le traitement n’est qu’un aspect (très marginal au niveau
du temps consacré pour l’apprentissage) du fonctionnement global du système.
Ce qui est aussi très important, c’est ce qui se passe avant et après le traitement
des données afin de mieux maîtriser les variables et les exemples appris.
C'est pourquoi nous voulons aller plus loin dans cette thèse dans la formalisation
des données en amont du traitement par les logiciels d'apprentissage
automatique. Comme l'indique la figure 2.3, nous allons expliciter les
connaissances initiales de l'expert au sein d'un modèle de l'observable. Les
données observées devront s'y conformer, ce qui permettra d'obtenir des
descriptions structurées comparables entres elles et d'atteindre l'autre objectif
principal : la robustesse des descriptions.
monde
réel
problème
modèle
objectif
questions
connaissances
initiales
représentation
virtuelle du
monde réel
données
échantillonnage
traitement
modèle
descriptif
hypothèses
résultats
vérification
validation
expert
Fig. 2.3 : Comparaison de notre travail avec l'approche statistique
Nous nous apercevons donc que la robustesse est une notion toute relative, à
manier avec une certaine précaution en fonction des interlocuteurs. Nous ne
prétendons donc pas dans cette thèse fabriquer un système robuste de
classification et de détermination des objets biologiques : cela est utopique dans
un tel domaine. Nous souhaitons simplement apporter une contribution originale
à son amélioration. Nous dériverons donc la robustesse au niveau de l'aide
apportée par des outils informatiques, conçus de telle manière que l'utilisateur
atteigne les objectifs qu'il s'est fixés (classification et/ou détermination) et
maîtrise ainsi mieux son sujet d'étude. Il s'agit pour lui d'apprendre des choses
nouvelles et utiles par ces outils, mais tout aussi bien sur son domaine que sur sa
propre méthode de travail, ce qui contribuera à l'amélioration des connaissances
générales.
66
Chapitre 2
2.4 Notre méthode d'acquisition des connaissances
L'amélioration de la robustesse passe par la mise au point d'une méthode
d'acquisition de connaissances fondée sur l'observation des faits, calquée sur la
pratique des biologistes systématiciens. La méthode est en conformité avec la
démarche de tout scientifique utilisant le raisonnement “plausible” (l'induction) et
l'analogie (le raisonnement par cas) à des fins de classification et détermination
d’objets naturels.
2.4.1 Différents types de connaissances à acquérir
2.4.1.1 Connaissances de base (“background knowledge”)
Ce sont les connaissances des faits observables du domaine, exprimées dans
le modèle descriptif. Elles recensent les objets observables liés entre eux par
des relations, ainsi que leurs caractères observables (caractéristiques, propriétés,
variables ou attributs) et les différents états possibles de ces caractères (valeurs
ou modalités d'attributs). Ces objets permettent de décrire complètement une
entité du domaine. Cette étape correspond à l'acquisition du modèle descriptif
(phase 1).
Le générateur de modèles descriptifs est l'outil interactif qui permet de créer,
d'éditer et de visualiser les objets graphiquement sous la forme d'un arbre. Cet
outil de modélisation de l’observable est un composant d’HyperQuestTM (voir le
chapitre 6, § 6.3). L'acteur principal de cette étape est l'expert du domaine
assisté ou non du cogniticien.
2.4.1.2 Connaissances de faits observés
Ce sont des descriptions individuelles issues du remplissage d'un questionnaire
hypertexte qui lui-même a été engendré automatiquement à partir du modèle
descriptif (phase 2). Ces faits constituent les données en entrée du système
d'induction ou de raisonnement par cas (phase 3).
Deux types de faits observés sont à considérer selon les objectifs du traitement :
◊ Classification : Le cas (ou exemple) est l'association d’une description
d’objets et de l’identification de la classe à laquelle appartient l'individu
possédant ces objets. La constitution d'une base de cas permet d’atteindre
Qu'est-ce que la robustesse ?
67
la caractérisation (définition) des différentes classes d’affectation
prédéfinies, et par suite un système expert de détermination.
◊ Détermination : L'observation est une description d'objets sans
classement associé à l'individu (le nom de la classe). Une observation
permet de consulter le système pour déterminer l'individu.
Ici, le nom de la classe est une sortie, alors que c'est une entrée dans le cas de la
classification.
L'outil qui permet de créer, d'éditer et de visualiser les cas et les observations
s'appelle le questionnaire. Il est construit automatiquement à partir du module
générateur de questionnaire interactif hypertexte de l'outil HyperQuestTM (voir
chapitre 6, § 6.4). Cet outil exploite les connaissances du modèle descriptif de
manière à les présenter simplement sous forme de cartes et de naviguer entre
elles pour renseigner les différents objets. Ce questionnaire est personnalisable et
permet d'intégrer des images pour illustrer les objets à décrire. Il permet aussi de
rappeler des cas pour les éditer. Le questionnaire produit en sortie une
description qui est soit un cas alimentant la base de cas pour la classification, soit
une observation brute à soumettre au système pour identification.
Les acteurs de cette phase sont aussi bien l’expert du domaine que les futurs
utilisateurs du système de détermination.
2.4.1.3 Connaissances produites
◊ Classification : ce sont les règles ou l’arbre de décision induits
automatiquement par généralisation des exemples et traduisant une
conjonction de propriétés à satisfaire pour appartenir à la classe nommée en
conclusion de la règle ou à la feuille de l’arbre (phase 3),
◊ Détermination : la connaissance recherchée est l'identification de la
classe d’appartenance de l’individu à déterminer.
Toutes ces connaissances sont différentes par nature et s'acquièrent dans cet
ordre prédéterminé afin de fabriquer le système de classification et de
détermination. Cela signifie que ces étapes doivent s’enchaîner en commençant
par la phase 1 qui est indépendante des deux autres. La phase 2 dépend de
l'élaboration de la phase 1 et la phase 3 dépend à la fois des deux autres (de la
sorte, les trois phases ont en commun le modèle descriptif).
68
Chapitre 2
2.4.2 Deux types de traitements des exemples pour la
classification et la détermination
En fonction des deux objectifs de l'expérimentation (classification ou
détermination), deux types de traitement des exemples sont proposés.
Pour la classification, qui concerne surtout l'expert, une caractérisation des
classes peut être obtenue par généralisation des exemples (apprentissage) et
présentée sous forme d'un arbre de décision. L'expert peut être amené à tester
l'incidence de différents critères de généralisation (pondération, efficacité, coût)
en comparant les différents arbres ainsi engendrés. La technologie de
l'induction nous paraît la mieux adaptée à l'objectif de classification.
Pour la détermination, qui concerne aussi bien l'expert que le biologiste,
l'objectif est d'extraire progressivement de la base d'exemples ceux qui ne sont
pas en contradiction avec la nouvelle observation à déterminer, jusqu'à se
confiner dans une classe. La technologie du raisonnement par cas nous
semble préférable à l'induction en ce qui concerne l'objectif d'identification (voir
le chapitre 7).
On a représenté sur le schéma de la figure 2.4 ci-dessous les trois étapes
permettant d'acquérir les connaissances descriptives ainsi que les deux types de
traitement utilisés :
69
Acquisition du modèle
(phase 1)
Qu'est-ce que la robustesse ?
Expert
Cogniticien
générateur de
modèle descriptif
HYPERQUEST
Modèle descriptif
générateur de
questionnaire
Acquisition des Cas
(phase 2)
Expert
Questionnaire
Spécimen
Identification
observateur
Description
Description
naturelle
Traitement des connaissances
(phase 3)
Cas ( = exemple )
Base de cas
Observation
raisonnement
par cas
CASEWORK
Induction
KATE
Expert
Arbre de décision
Spécimen
observateur
Caractérisation
des classes
Classification
Système expert
de détermination
Validation
Identification
(par système statique)
Acteur
Résultat
Module de
traitement
Fonctionnalité
Identification
(par système dynamique)
Itinéraire
courant
Itinéraire
facultatif
Fig. 2.4 : Synoptique de notre méthode d’acquisition des connaissances
Deux types de détermination sont possibles avec le système actuel :
❶ Le premier utilise un système statique de détermination. KATE fabrique un
arbre de décision ou des règles de décision, ce qui forme une généralisation
des cas dont on ne retient que les critères de détermination les plus efficaces
(système figé et maximalement discriminant).
❷ Le second est un système expert dynamique de détermination. CaseWork
raisonne directement à partir des cas en appliquant un principe d'analogie
pour retrouver ceux les plus semblables à l'observation courante (système
dynamique).
70
Chapitre 2
En effet, la phase de consultation du système met en jeu toutes les connaissances
décrites préalablement et permet la détermination d'un nouveau cas. Elle
intervient après que la phase d'induction par KATE ait engendré un arbre de
décision pour le système statique alors que pour le système dynamique, les deux
phases sont imbriquées au cours de la détermination : l'utilisateur guide la
discrimination en fonction des réponses qu'il donne (ou ne peut pas donner) au
cours de la consultation.
Le questionnaire du domaine peut intervenir en phase de consultation pour le
système dynamique. Il permet à l'utilisateur de ne pas être obligé de suivre un
chemin de l'arbre de décision avec les questions posées relatives à chaque nœud.
L'utilisateur fournit dans un premier temps sa propre description de ce qu'il
observe avec le questionnaire, puis cette description est interprétée par
CaseWork qui pose des questions complémentaires s'il n'aboutit pas à un
résultat certain. Le questionnaire favorise donc la maîtrise par l’utilisateur de la
consultation du système de détermination dynamique.
De plus, si cette consultation peut être validée par l’expert, la description issue
du questionnaire et la détermination de l’expert constituent un nouveau cas qui
peut être introduit dans la base initiale.
2.4.3 La phase de validation des connaissances apprises
Une dernière phase mérite d’être mentionnée : il s’agit de la validation. Elle
permet de détecter des incohérences, que ce soit avec l’arbre de décision de
KATE ou bien avec le système de détermination de CaseWork. Quand un
résultat s’avère invalide, trois causes peuvent être invoquées :
1 - Une description a été mal renseignée (valeur erronée par exemple),
2 - La base de cas est incomplète, non représentative de la variété réelle,
3 - Le modèle descriptif est incomplet (critère discriminant oublié).
Les deux premiers problèmes sont ponctuels et peuvent être résolus simplement
en retrouvant la description erronée ou en rajoutant un exemple. Le dernier
problème relève de la structure même du modèle descriptif et a pour conséquence
la remise en question non seulement de la base de cas mais encore la mise à jour
du questionnaire afin d’assurer sa cohérence avec le modèle descriptif.
Dans la méthode mise au point, toute la chaîne des outils allant de la construction
du modèle descriptif au traitement des exemples par induction et raisonnement
par cas est complète. Néanmoins, la phase d’itération sur le modèle à modifier
n’est pas prise en compte au niveau des anciens cas. En effet, si un nouveau
questionnaire est généré prenant en compte de nouveaux objets, attributs ou
valeurs possibles, la modification de la structure du modèle ne remet pas à jour
Qu'est-ce que la robustesse ?
71
l’ancienne base de cas. Ceux-ci doivent être complétés manuellement avec un
traitement de texte pour être conformes au nouveau modèle.
72
Chapitre 2
III
TERMINOLOGIE ET CONCEPTS MIS
EN ŒUVRE
Notre objectif principal est la mise au point de systèmes de détermination
(classification et identification) prenant en compte de façon naturelle la diversité,
l'interdépendance et la variabilité des caractères observés, et s'accommodant
autant que possible des données manquantes si fréquentes dans les domaines
biologiques. De cet objectif découle la révision apportée des concepts
fondamentaux intervenant dans la classification des êtres vivants (au sens large).
Quiconque s'est intéressé aux productions de la nature, dont les êtres vivants
sont les représentants les plus évidents, a perçu que, sous une apparence de
diversité et de complexité extrême, se cachait en fait une sorte de plan
d'ensemble, une régularité, une logique, un déterminisme, etc.. Les naturalistes
sont arrivés à la notion de “système de la nature”, d'un ordre global dans lequel
les différents individus se trouvent virtuellement regroupés en “classes”, et ceci à
différents niveaux ou “catégories” (Espèces, Genres, Familles, etc.).
Dans ce chapitre, nous exposons notre point de vue sur les concepts utilisés en
biologie par rapport à ceux utilisés chez une grande majorité de mathématiciens et
philosophes afin de permettre une meilleure compréhension du domaine
biologique qui nous intéresse ici.
3.1 Extension et compréhension
3.1.1 L’extension
Deux points de vue de l'extension sont possibles selon le sujet d'étude et
l'observateur :
3.1.1.1 Point de vue du philosophe et du mathématicien
Ces personnes s'intéressent aux produits de l'activité humaine, c’est pourquoi
l'extension est une notion dépendant de la compréhension : on parle d'extension
d'un concept par rapport à sa compréhension. Le sujet d'étude est la
compréhension (ou intension) à partir de laquelle on cherche une extension.
74
Chapitre 3
Pour ces observateurs, l'extension est la sphère plus ou moins grande des êtres
ou des espèces auxquels s'applique une condition exprimée par un ou plusieurs
attributs. La pensée organise spontanément les choses en classes (ou concepts),
d'après leurs caractères communs, et forme les classes les plus étendues en
éliminant de plus en plus de caractères. Aussi dit-on que plus l'extension croît,
plus la compréhension se restreint.
Par exemple, tant que l'on ne connaissait pas de cygnes noirs, le concept cygne
comportait dans sa compréhension l'attribut nécessaire blanc. Son extension
comportait tous les cygnes connus (qui étaient tous blancs). Après la découverte
de cygnes noirs, le concept cygne a perdu en compréhension l'attribut blanc (qui
n'était plus nécessaire désormais) et a gagné en extension les nouveaux cygnes
découverts.
L'extension peut être qualifiée de psychique ou abstraite car elle dépend d'une
définition préalable des classes dans un univers de description donné (PClass
et PConcepts [Sutcliffe, 1993]). Dans ce contexte, il peut arriver que l'extension
d'un concept soit vide : le concept de licorne par exemple [Sowa, 1984].
En résumé, la classe traduit l'extension d'un concept, elle n'existe que
lorsqu'elle a été explicitée : elle constitue l'ensemble des individus qui satisfont à
la condition exprimée par son concept dans un univers de description donné.
3.1.1.2 Point du vue des biologistes et des naturalistes
Ces personnes s'intéressent plus aux produits de la nature, la compréhension n'a
d'intérêt que si elle traduit une extension concrète. Ainsi l'extension peut être une
notion indépendante de la compréhension. Le sujet d'étude est l'extension et l'on
considère que les classes préexistent avant même de recevoir une définition. Par
exemple, un chien qui passe dans la rue existe indépendamment de sa définition.
Chaque classe correspond à une certaine extension (ou couverture) concrète et
naturelle dont on veut tirer un enseignement (une compréhension des classes
naturelles).
Dans un premier temps, on se contente donc de décrire l'extension ou le contenu
(les individus) de la classe sous forme de descriptions. Le fait de décrire est
déjà en lui-même un enseignement pour le descripteur (celui qui décrit). Il est
amené à interpréter des observations multiples et hétérogènes afin de produire
des généralisations “de bas niveau” (en ne mesurant que certaines propriétés et
en en ignorant d'autres) supposées exactes et dignes de confiance.
Les descriptions doivent tenir compte de la diversité biologique exprimée par la
couverture de la classe1.
1
Chaque objet de l'extension possède un statut avec différentes modalités que le descripteur
peut être amené à envisager : ces informations sont...
Terminologie et concepts mis en œuvre
75
On s'efforcera donc de traduire cette diversité dans les descriptions afin de
recueillir toute la richesse et la diversité des individus du domaine biologique
bien délimité. En effet, chaque individu décrit est un élément représentatif de la
classe et a pour extension lui-même : notre approche privilégie ainsi la
multiplication des descriptions d'individus appartenant à une même classe (avec
des valeurs comprises dans un intervalle de doute ou d'imprécision) plutôt
qu'une seule description de “concept” dont l'extension est l'ensemble des
individus qui vérifient l'intervalle de variation des valeurs de la description. Cette
deuxième approche est celle adoptée par [Vignes, 1991]. La formalisation sous
forme d'objets symboliques [Diday, 1987] présentée au chapitre 5 met aussi en
lumière cette nuance.
Ainsi comprises, les descriptions forment une base de travail exhaustive pour le
traitement et constituent déjà un résultat important pour la transmission du savoir
humain.
Dans un deuxième temps, le descripteur cherche à mieux comprendre ses
descriptions individuelles.
3.1.2 La compréhension
La compréhension ou l’intension est l'ensemble des caractères ou
propriétés contenus dans un concept et qui permettent de le définir [Arnauld et
Nicole, 1662].
Ainsi vertébré a comme compréhension : animal qui a des vertèbres et comme
extension Mammifères, Oiseaux, Batraciens, Reptiles, Poissons. On remarque
évolutives : elles changent au fur et à mesure que l'univers dans lequel elles sont utilisées se
modifie, ce qui entraine des problèmes de cohérence.
certaines ou incertaines : il peut résider ou non un doute quant à la vérité des informations. Ce
doute peut être dû à un manque de confiance dans la source de l'information ou au fait que
celle-ci est difficilement accessible à la vérification.
valides ou périmées : elles n'ont pas toujours de valeurs universelles et peuvent être remises
en question dans l'avenir.
typiques ou exceptionnelles : chaque objet, qu'il soit considéré comme central ou marginal,
porte sa propre originalité et fait ainsi partie intégrante de la couverture de la classe. A ce
titre, les cas exceptionnels ont autant d'importance que les cas typiques en biologie, c'est
pourquoi les biologistes affirment que dans la nature, l'exception est la règle. Il ne s'agit
donc pas de les supprimer !
complètes ou incomplètes : la connaissance disponible sur un objet est généralement
incomplète parce qu'elle est implicite et donc généralement oubliée dans la
représentation, ou encore parce qu'elle n'est pas encore connue ou qu'elle est difficile à
transmettre.
significatives ou fictives : des informations ont un sens pour expliciter des règles de
connaissances alors que d'autres ne sont utilisées que pour structurer le domaine de
description.
76
Chapitre 3
qu'un concept s'étend à d'autant plus d'êtres qu'il réunit moins de caractères
comme le montre la figure 3.1 :
Nombre d'individus couverts par l'extension
Nombre de critères de l'intension
Fig. 3.1 : Rapport entre l'extension et l'intension
Ainsi la compréhension et l'extension sont en raison inverse l'une de l'autre.
Animal a une extension plus stricte et une intension plus forte que Vivant,
Vertébré a plus de compréhension qu'Animal et Mammifère plus que Vertébré.
D'après cette définition de la compréhension, l'intension est la partie signifiante
du concept. Elle énonce certaines propriétés (supposées vraies) permettant de
valider des connaissances du domaine. Elle exprime les conditions nécessaires
et/ou suffisantes2 d'appartenance d'un individu au concept.
Néanmoins, la question de savoir si l'intension prime sur l'extension est un
problème philosophique qui dépend de l'observateur et de ses préoccupations.
En effet, l'intension précède-t-elle l'extension dans la vision que possède
l'utilisateur du domaine étudié ? Il semble naturel que la réponse soit oui pour un
psychologue et un mathématicien : la définition ne peut être faite que par
l'homme ! Ce à quoi le naturaliste objectera en posant la question suivante : estce que les animaux qui existaient au secondaire et que l'on a appelés dinosaures
par la suite faisaient partie d'une classe ? Est-ce qu'ils existaient avant que le
concept n'apparaisse ? Il semble aussi que oui ! Nous sommes ainsi en présence
d'une dualité de point de vue résumée par la figure 3.2 :
2
Une définition n’est pas forcément nécessaire et suffisante du fait que des personnes différentes
ont rarement la même compréhension d’un même phénomène naturel : voir plus loin les
définitions des intensions minimales, strictes et généralisées des concepts au § 3.2.2.
77
Terminologie et concepts mis en œuvre
Naturaliste
extension
Classes
intension
Descriptions
Concepts
Mathématicien
Fig. 3.2 : Mathématiciens et Naturalistes, deux points de vue différents des concepts
Ce schéma un peu caricatural demande un approfondissement dans l'étude des
raisonnements différents qu'employent ces deux catégories de personnes :
Le mathématicien a l'habitude d'utiliser un raisonnement démonstratif basé
sur une valeur de vérité d'une propriété, exprimé par des règles rigoureuses et
clarifiées par la logique formelle. Ce type de raisonnement est sûr, à l'abri des
controverses et définitif. Inversement, le naturaliste émet des hypothèses qu'il
justifie par un raisonnement plausible. Ce dernier est hasardeux, il peut être
controversé et il est provisoire [Pólya, 1958]. Néanmoins, il est capable de
conduire à des connaissances essentiellement nouvelles sur le monde qui nous
entoure. C'est pourquoi ces deux types de raisonnement ne sont pas
contradictoires comme pourrait le laisser penser le schéma ci-dessus : ils se
complètent.
Dans le raisonnement rigoureux, l'essentiel est de distinguer une preuve d'une
présomption, une démonstration valable d'une tentative qui a échoué : c'est le
savoir démontrer du mathématicien qui prouve la validité de ses concepts. Dans
le raisonnement plausible, l'essentiel est de distinguer une présomption d'une
autre, l'une plus raisonnable que l'autre : c'est le savoir pressentir du naturaliste
qui suggère des classes fiables. Le mathématicien doit donc être capable de
deviner une règle ou un théorème mathématique avant de le démontrer, de même
que le naturaliste devrait être capable de prouver le bien fondé de ses règles de
classification. Il est donc faux d’opposer la démarche d’un naturaliste à celle
d’un mathématicien comme voudrait le laisser paraître notre monde contemporain
assoiffé de démonstrations et de certitudes.
Dans cette thèse, nous nous plaçons d'abord du point de vue du
naturaliste qui considère l'extension comme son sujet d'étude.
Le premier principe de la robustesse est effectivement de bien comprendre le
domaine étudié, c'est-à-dire ici d’adopter la terminologie des systématiciens.
78
Chapitre 3
Partant d'une classe (ensemble d'individus) dont le contenu (l'extension) est sa
couverture, le naturaliste observe et crée le nom de cette classe puis... la définit
(en intension) afin de créer le concept associé. Cette démarche constate d'abord
la classe avant de procéder à une conceptualisation de ses individus.
Certains mathématiciens comme Euler (1707-1783) ou Laplace (1749-1827)
prônent ce point de vue basé sur l'observation. Néanmoins, contrairement au
naturaliste pour qui l'observation est le critère le plus élevé (la vérification
effectuée dans de nombreux cas bien choisis est la seule méthode de
confirmation d'une loi hypothétique dans les sciences naturelles), le
mathématicien va plus loin dans son domaine en affirmant que si nombreuses
que puissent être des vérifications expérimentales, elles ne suffisent pas à
démontrer que la loi supposée est vraie. Cette bifurcation de point de vue tient
donc à la nature du domaine étudié (réfutabilité des hypothèses) : la récurrence et
la périodicité ne se rencontrent pas dans la nature !
Ensuite, nous nous plaçons du point de vue de l'informaticien dont
l'approche est située entre la démonstration et l'observation.
L'informaticien agit au niveau des descriptions : il donne la possibilité avec les
outils qu'il développe de normaliser les observations des naturalistes, élevées au
rang de descriptions comparables entre elles car utilisant le même schéma de
représentation. C’est à partir de ces descriptions que nous allons bâtir des
hypothèses “plausibles” par induction et que nous allons les vérifier grâce à
l’identification de nouvelles observations. Par les outils que l’informaticien
fournit, nous serons capables d’appliquer la méthode hypothético-déductive
chère à Popper [Popper, 1973], [Popper, 1978] :
“La méthode de la Science est une méthode de conjectures audacieuses et
de tentatives ingénieuses et sévères pour réfuter celles-ci”.
Ces descriptions sont un premier niveau d'abstraction : elles constituent le terme
commun des deux approches et c'est pourquoi nous les traitons à part au chapitre
4 de cette thèse.
3.2 Classe et concepts
3.2.1 La classe
C’est l'ensemble ou groupe d'individus ... (stop, c'est le point de vue du
naturaliste) ... possédant tous un ou plusieurs caractères communs et étant les
seuls dans ce cas (c'est le point de vue du philosophe ou du mathématicien).
Terminologie et concepts mis en œuvre
79
3.2.1.1 Point de vue des mathématiciens
Pour eux comme pour certains philosophes (suivant en cela la tradition
d’Aristote), la classe dérive du concept : il s’agit d’un ensemble d’objets qui
satisfont une condition prédéfinie nécessaire et suffisante (dans un univers de
discours donné) et qui forme ainsi l’extension d’un concept [Sutcliffe, 1993].
Cette sorte de classe peut être nommée classe conceptuelle [Niquil, 1993].
Il existe toutefois une partie des mathématiques qui considère les objets sous leur
aspect extensif et que l’on peut qualifier d’expérimentale car basée sur
l’induction [Euler, 1747]. Néanmoins, la partie la plus importante des
mathématiques “modernes” (la théorie des ensembles, la logique formelle, les
prédicats) s'intéresse plutôt à leur aspect compréhensif [Frege, 1893] et à la
déduction. Le but de cette dernière approche est de calculer l'extension du
concept C en définissant une application ac de l'ensemble des individus observés
Ω --> [vrai,faux] qui à chaque individu w de Ω fait correspondre son
appartenance au concept C ou non.
ac : Ω → [0,1]
w a 1 si w ∈ C, 0 sinon
Les individus sont ainsi baptisés instances du concept s'ils appartiennent au
concept3. Comme nous l’avons déjà expliqué plus haut (§ 3.1.1.1), l’extension
dépend de la compréhension pour certains alors qu’elle est le point de départ
pour découvrir une intension pour d’autres.
Donc, pour le mathématicien, la classe n'existe que si elle est explicitée en
intension (dans le monde des idées) selon un certain point de vue et correspond
à un concept. Elle peut être qualifiée d'abstraite. Prenons garde néanmoins au
terme d'existence : une définition n'entraine pas l'existence de la chose définie,
les objets mathématiques étant donnés au départ par postulat (les fonctions, les
nombres, le cercle, etc.) [Bourbaki, 1974].
3.2.1.2 Point de vue des systématiciens
On trouve la définition suivante de la classe [Larousse] :
(Histoire naturelle) : “Bien que, comme tous les groupes plus vastes que
l'espèce, la classe soit un concept en partie abstrait (un niveau
taxonomique), on donne à de nombreuses classes une définition tout à fait
précise, correspondant au fait que les êtres de cette classe possèdent tous un
3
Une partie plus récente des mathématiques s'intéresse au degré d'appartenance “flou” des
individus à des concepts [Zadeh, 1965] : un élément appartient plus ou moins à un ensemble.
En ce qui concerne les spécimens, le naturaliste n'est pas habitué à jongler avec l'incertitude et
l'imprécision pour attribuer un individu à un concept, il finit par trancher. Cette caractéristique
étant naturelle en biologie, nous n'avons pas étudié plus avant la théorie des possibilités
[Dubois & Prade, 1987] pour l'appliquer dans la représentation des connaissances du domaine.
80
Chapitre 3
certain caractère et sont seuls à le posséder. Les Insectes ont tous un thorax
formé de trois anneaux et portant trois paires de pattes articulées ; les
Oiseaux ont tous des plumes ; les Monocotylédones ont toutes un embryon à
un seul cotylédon ; les Céphalopodes ont tous des tentacules, etc..”
Remarque : Les systématiciens employent le mot Classe (ou Classis) avec une
majuscule pour désigner l’une des catégories de la systématique comprise entre
les Ordres (Ordo) et les Embranchements (Phylum). Quoi que traitant ici de
systématique, nous n’emploierons jamais le mot classe dans ce sens strict.
Nous l’employerons plutôt comme synonyme de groupe (ou taxon) à un certain
niveau hiérarchique [Larousse] :
(Histoire naturelle) : “Subdivision usitée en classification zoologique ou
botanique et dont on ne peut pas ou on ne veut pas préciser la valeur
hiérarchique: Classe, Ordre, Genre, Embranchement, etc..”
La première définition précédente de la classe, si on l’étend aux différents taxons
de la classification linnéenne, donne comme exemples des caractères propres ce
qui a été appelé “caractères dominateurs”, entièrement caractéristiques d’une
classe. Dans les faits, il est rare qu’une classe puisse être ainsi caractérisée par
un caractère unique. La diversité biologique que l'on constate dans la nature fait
que la définition d’une classe regroupe généralement la conjonction de plusieurs
caractères. La définition semble de plus considérer le terme de concept comme
synonyme de classe, ce qui ne correspond pas à notre analyse (voir plus bas).
Pour ces raisons, nous considérons que cette définition ne correspond pas
toujours à la réalité des choses. Par le terme équivalent de concept, elles
apparaissent comme des intensions, des preuves sûres, démontrables au sens
mathématique et pas du tout comme des hypothèses plausibles, vraisemblables et
à vérifier par de nouveaux faits.
Ces définitions ne sont pas sans rappeler le grand débat sur “l’espèce” [Cuénot,
1936] entre fixistes tels G. Cuvier qui croient à la permanence des espèces qui
ont été créées séparément et ne passent pas de l’une à l’autre, et transformistes
tels C. Darwin qui ne sont pas surpris par la variabilité de l’espèce, les variants
étant des espèces naissantes sous l’effet de cause extérieures qu’ils subissent. Il
est alors impossible de définir les espèces dans cet état d’équilibre momentané.
Le point de vue pratique exige néanmoins l’établissement d’une hiérarchie
utilisable, ce que permet la systématique moderne avec un matériel écologique et
géographique beaucoup plus abondant et des outils d’expérimentation plus
performants (microscopes, ordinateurs, etc.).
Une révision de la notion de classe en systématique s'avère donc nécessaire de
manière à ce que nous distinguions bien la différence conceptuelle que l’on veut
Terminologie et concepts mis en œuvre
81
apporter à la classe par rapport aux concepts : pour le naturaliste, la classe existe
en elle-même indépendamment de l'homme qui la décrit, elle est explicitée par
son extension, elle est donc concrète, naturelle et unique. Intuitivement, on
conçoit bien [Matile et al., 1987] que si l’espèce humaine (la classe des
hommes) disparaissait, les autres espèces continueraient à exister dans leur
intégrité, indépendamment de leurs observateurs, tout comme certaines d'entre
elles ont existé avant l’apparition de l’homme.
Chaque classe naturelle peut être :
1) nommée,
2) définie par son contenu,
3) caractérisée par des traits propres,
4) typifiée,
5) et enfin conceptualisée.
1) On peut s'y référer sans ambiguïté par son nom ; c'est un principe,
magistralement arrêté par Linné (1735), que la découverte de toute nouvelle
classe doit être accompagnée par son auteur de la fixation d'un nom ; cette
dénomination doit respecter des règles de nomenclature bien définies (binôme
spécifique, loi de priorité, etc.), en particulier pour s'assurer de son unicité.
2) La classe peut être définie concrètement par son contenu (sa population),
représentée par exemple par l'énumération des individus connus qui composent
son effectif. De façon plus pragmatique, on se contente d'un échantillon
“représentatif” de la population, qui doit illustrer au mieux la variabilité
naturellement présente. Il se peut qu’il y ait parmi les descriptions
d’individus, à la fois des descriptions d’un seul spécimen (un individu réel) et
des descriptions synthétiques de plusieurs spécimens (individu virtuel). Il est
clair que l’on ne maîtrise pas toujours dans les descriptions livresques anciennes
la nature des individus décrits (réels ou virtuels). Nous affirmons par contre que
l’on devrait s’employer à utiliser le mot description uniquement pour décrire des
spécimens et non pas décrire une population de spécimens. Par abus de langage,
on appelera ces dernières des “descriptions” synthétiques (ou virtuelles) alors
qu’elles ont déjà un certain niveau d’abstraction correspondant à des définitions.
La distinction entre description et définition permet de montrer la différence entre
l'imprécision attachée aux valeurs descriptives d'un spécimen (une disjonction
de valeurs pour un seul état possible) et la variation associée aux valeurs d'un
ensemble de spécimens (une conjonction de valeurs décrivant plusieurs états).
Dans la pratique de la systématique au MNHN, il sera préférable dans l'avenir de
stocker des descriptions correspondant à des spécimens de manière à perdre le
moins d'information possible sur les espèces ou autres classes produites.
Idéalement, les descriptions devront être complètes et exhaustives !
82
Chapitre 3
3) La classe peut être caractérisée, de façon aussi discriminante que possible, par
un ensemble de caractères propres à la distinguer des autres classes, dont
l'énoncé constitue sa diagnose. A côté de la diagnose, volontairement limitée à
un minimum de caractères distinctifs, on fait aussi souvent figurer une
définition, formée par la synthèse des descriptions des individus qui la
composent ; cette synthèse, aussi appelée intension de la classe, comporte un
certain degré de généralisation4. Cette généralisation permet de ne pas exclure
d'emblée de nouveaux individus qui ne sont pas exactement semblables à ceux
déjà admis, mais néanmoins conformes à la diagnose. L’extension originale de la
classe est potentiellement élargie à de nouveaux individus de la classe.
L’extension de la classe (sa couverture du point de vue du naturaliste) généralise
sa population à tous les individus qui sont ou pourront être reconnus comme lui
appartenant. L’extension de la classe, ainsi comprise, est élargie à l’extension du
concept : tout individu appartenant à la classe est un représentant du concept (une
instance). De la sorte, on tend à rendre équivalentes les définitions en intension
et en extension, comme cela semble souhaitable.
4) La classe possède un type, que son auteur a choisi pour la représenter de
façon unique et définitive. Le type est, à la limite, le seul individu dont
l'appartenance à la classe soit certaine. Il faut remarquer que, paradoxalement, il
n'est pas attendu que le type soit particulièrement représentatif ; Il est même
fréquent qu'il apparaisse par la suite comme extrême par rapport à la gamme de
variabilité intra-classe. Il ne faut donc pas confondre le type, purement arbitraire,
avec un quelconque prototype ou individu “moyen”. Une classe en tant que
concept biologique n'existe que si un type lui a été associé. L'Homo sapiens est
la seule espèce qui ne possède pas de type.
5) Enfin la classe peut être envisagée comme un concept une fois qu’elle a été
définie, chacun de ses individus apparaissant à la fois comme un représentant du
concept et comme un élément objectif (faisant partie de la couverture) ou
subjectif (conforme à la définition) de la classe.
Il est aussi important de prendre en compte le fait que les classes sont organisées
selon une hiérarchie à multiples niveaux, à laquelle on peut appliquer le nom de
“système” (au sens de la systématique, non de la systémique). Chaque niveau
peut avoir une signification biologique, mais celle-ci n'est clairement établie que
dans le cas du niveau “espèce”, pour lequel on peut se référer à un critère
biologique (l'interfécondité). Aucun individu ne peut appartenir à plus d'une
classe d'un niveau donné (mais l'exception est tout à fait admise en cas de doute
sur l'appartenance à l'une ou l'autre de classes voisines). Et tous les individus
appartenant à une classe sont des représentants équivalents de son concept. De la
4
La généralisation s'effectue lorsqu'il s'agit de passer d'une disjonction de descriptions
imprécises sur des spécimens d'une classe à une définition réelle qui est la conjonction
d'attributs exprimant la variation au sein d'un concept.
Terminologie et concepts mis en œuvre
83
sorte, on ne peut parler de “degré d'appartenance flou”, sauf à traduire par là un
état incomplet des connaissances et non pas une ambiguïté de fait.
3.2.2 Les concepts
Les concepts sont considérés du point de vue de la compréhension qui désigne
l'ensemble des caractères exprimés par le mot, et du point de vue de l'extension,
qui désigne l'ensemble des individus auxquels le mot s'applique.
Un concept est une abstraction intellectuelle de parties du monde. C'est une idée
abstraite (obtenue en se bornant à considérer certains caractères des objets, à
l'exclusion d'autres caractères pourtant perceptibles) et générale (étendant les
caractères ainsi considérés à tous les objets qui les possèdent). Tout concept se
caractérise par sa compréhension (ensemble des caractères considérés dans les
objets) et par son extension (ensemble des objets auxquels il peut s'appliquer).
Compréhension et extension forment donc l'aspect logique du concept une fois
élaboré (LConcept). Abstraction et généralisation sont les deux opérations
psychologiques par lesquelles il s'élabore (PConcept) [Sutcliffe, 1993].
Chez Aristote, on trouve la notion de logoi pour le concept avec deux points de
vues : l'un considère les sujets que regroupe la classe correspondante au concept
et l'autre est le prédicat qui est la condition d'appartenance d'un sujet à la classe
du concept. Il y a trois façons (logoi) de se référer à un concept :
1) par son contenu (l'être),
2) par sa définition (l'essence),
3) par son nom (terme univoque qui abrège la définition).
1) L'être est le référent ou l'extension du concept. C'est l'ensemble des
instances du concept (les choses existantes auxquelles le concept s'applique).
2) L'essence est la condition d'appartenance à la classe. On donne un prédicat
ou définition (une condition) ce qui crée le concept en intension (le nom n'est pas
forcément présent).
3) Le nom du concept est un abrégé ultime de la définition. Il peut faire
intervenir la propriété la plus caractéristique pour le résumer (par exemple, la
rouille du blé5, un réfrigérateur, etc.). Néanmoins, le nom est avant tout une
commodité, un code de reconnaissance, qui est difficilement utilisable si l'on fait
abstraction de sa définition complète (ambiguité). En sciences naturelles, le nom
est donné en latin pour lui conférer un caractère universel.
5 Maladie fongique caractérisée par des taches de couleur rouille.
84
Chapitre 3
3.2.2.1 Du point de vue naturaliste
Dans notre approche des concepts, nous affirmons leur existence dès lors que
nous fixons :
1) une classe,
2) une définition associée à la classe,
3) un univers de discours (un contexte),
4) une capacité d'abstraction intellectuelle plus ou moins élaborée.
1) Pour les biologistes, la classe est une vérité ; elle a une existence naturelle
avant même d'être définie en tant que concept.
2) Pour le concept, ce n'est pas le nom qui est important mais bien l'intension
qui lui est attribuée (sa définition). Un concept est délimité par la définition de la
classe correspondante.
3) La définition de la classe dépend du contexte : il peut exister en effet
différents concepts associés à une même classe. Par exemple, le concept de
“grand homme” dépend de l'univers de discours pour sa définition. S'agit-il du
sens donné à la taille d'un individu ou bien celui de sa réputation ? Napoléon et
le Charles de Gaulle ne seraient pas classifiés de la même manière selon le
contexte choisi !
Autre exemple : la classe des tomates ne correspond pas à la même définition
chez un botaniste et chez un cuisinier : c'est un fruit pour le premier et un légume
pour le second.
4) La définition de la classe dépend du niveau de perception. Par exemple, le
concept de dinosaures pour un paléontologiste correspond à un stade d'évolution
dans la lignée des reptiles alors que le concept de dinosaures pour un enfant peut
correspondre à celui d'un monstre sympathique, personnage de dessin animé.
Pour un univers de discours donné et un certain niveau de perception, un
concept associé à la classe peut être déterminé. Un concept est déterminé lorsque
l’on explicite les caractères compréhensifs du concept [Petit-Robert, 1994].
A chaque concept, on peut associer plusieurs niveaux de définitions de la classe
considérée :
◊ Le premier correspond à une intension généralisée qui donne des
conditions nécessaires d'appartenance à la classe. Ces conditions forment
une généralisation6 de la classe et la définition obtenue ne se trouve donc
6
La généralisation peut être définie comme un ajout d’observable à de l’observé. En effet, le
résultat de la généralisation englobe des situations intermédiaires observables, non
effectivement observées.
85
Terminologie et concepts mis en œuvre
que partiellement observée. Tous les individus qui y appartiennent
satisfont à cette définition. Néanmoins, il peut y avoir des individus qui
n'appartiennent pas à la classe mais qui sont conformes à la définition. Il
est nécessaire toutefois d'y attacher un critère de sélectivité (par exemple :
couvrir le moins possible de contre-exemples) pour ne pas produire de
définition triviale si peu discriminante qu’elle couvre trop de contreexemples. Ainsi, dans le domaine des Hyalonema, si nous retenions
uniquement la couleur blanchâtre du corps de l’éponge pour caractériser
une classe, nous serions sûrs de couvrir aussi toutes les autres classes.
Autrement dit, il est recherché une intension généralisée aussi discriminante
que possible.
◊ Le second niveau est une intension stricte exprimant des conditions
nécessaires et suffisantes d'appartenance à la classe : tout individu qui
satisfait à l'intension stricte de la classe en fait partie. Inversement, tout
individu qui appartient à la classe satisfait à son intension stricte. Chacune
des conditions exprime une régularité intra-classe. L’intension stricte est
une intension observée, elle est issue d’une simple reformulation7 de la
disjonction des descriptions réelles de la classe (par factorisation, par la
prise en compte de connaissances de fond, etc.). Elle est absolue car elle ne
fait pas intervenir les définitions des autres classes.
Remarque : cette intension stricte est surtout valable pour des objets
manufacturés qui sont des productions humaines et dont la reproductibilité
des descriptions est assurée : ce sont des clones. Par exemple, une nouvelle
pièce de 1F à identifier est conforme à l'intension stricte d'une pièce de 1F.
En ce qui concerne les objets biologiques que nous avons à traiter,
l'intension stricte n'est pas intéressante car son extension se limite aux
individus qui ont servi à la définir, ou à leurs clones ; or les individus
naturels diffèrent toujours les uns des autres par quelque caractère objectif
(polymorphie).
Autre remarque : l’intension stricte peut être généralisante si les exemples
sont imprécisément décrits. En donnant la valeur “argentée ou dorée” à la
couleur d’une pièce de 10 F, la disjonction d’imprécision peut être
interprêtée comme une conjonction de variation au moment de
l’identification d’une autre pièce, ce qui ne permettrait pas de toujours
déterminer une pièce de 20 cts. Il y a là un problème crucial rencontré lors
de l’interprétation des descriptions au moment de l’apprentissage, ce qui
7
Une reformulation est une formule comprimée de l’intension par réécriture, elle est plus
dense, mais elle contient la même information (iso-intension) et le même contenu au niveau de
l’extension (iso-extension). Un exemple de reformulation est le suivant :
si (b ∧ d) ⇒ C
si (c ∧ d) ⇒ C
a = (b ∨ c) (connaissance de fond)
}
si [d ∧ (b ∨ c)] ⇒ C
}
si (d ∧ a) ⇒ C
86
Chapitre 3
peut conduire à une intension stricte faussement généralisée. L’intension
stricte s’applique donc à des descriptions subjectives dont on ne mesure pas
toujours l’origine (imprécision ou variation) !
◊ A partir de l’intension stricte, nous pouvons dériver une intension
réduite ou diagnose stricte qui donne le plus petit jeu de conditions
nécessaires et suffisantes d'appartenance à la classe. Chacune de ces
conditions correspond à une différence inter-classe. Il faut remarquer que
cette caractérisation succinte est relative aux autres définitions de classes
que l’on veut comparer pour être en mesure d'évaluer leurs différences :
elle n’est pas absolue du fait qu’elle doit être modifiée à chaque fois qu’une
nouvelle classe est prise en considération. Il s’agit en effet d’une
“connaissance croisée” (différentielle) dont on a retiré tout ce qui est
commun avec les autres définitions de classe. La diagnose, issue d’une
intension stricte, est une diagnose observée.
◊ le troisième niveau est une intension modale ou typique donnant des
conditions suffisantes d’appartenance à la classe. Tout individu (typique)
répondant à cette définition “caractéristique” de la classe en fait partie
(= modèle de classe). Il peut y avoir néanmoins dans la classe des
individus atypiques s’écartant de la définition de cette classe. Pour dériver
une intension modale de la classe, on procède de la manière suivante :
On commence par ôter les exceptions de la classe (par exemple enlever les
autruches de la classe des Oiseaux parce qu’elles ne volent pas). On forme
ainsi une sous-classe épurée ne possédant que des individus typiques de la
classe. On construit alors une intension stricte de la sous-classe typique, ce
qui produit une intension typique de la classe.
◊ Par réduction de l’intension typique par rapport aux autres classes, on
obtient une diagnose modale ou typique (on supprime tous les
éléments de l’intension modale de la classe qui ne caractérisent pas les
autres classes : le résultat est par exemple : les Oiseaux volent). La plupart
des “diagnoses” utilisées par les biologistes (surtout les botanistes) sont
modales (elles évacuent les exceptions pour gagner en signification) ; elles
comportent souvent une part plus ou moins importante de généralisation
pour en faciliter la compréhension par le profane.
Par exemple, prenons les Orchidées qui est une des Familles la plus
importante du règne végétal : de manière générale, elle est caractérisée par
l'absence d'albumen dans les graines, la mycotrophie (vie en symbiose
avec le mycelium des champignons) et des fleurs entomophiles (attirant les
insectes) très zygomorphes (avec un plan de symétrie) [Guignard, 1989].
87
Terminologie et concepts mis en œuvre
3.2.2.2 Du point de vue mathématique
Pour formaliser ce que l'on vient de dire, donnons les définitions suivantes :
Soient Ω = {w1 ,...,wn }, l'ensemble des spécimens ou individus observés,
Π ⊃ Ω,l'ensemble de tous les individus observables,
P(Ω), l'ensemble des parties de la population observée Ω.
Soit F, une fonction de représentation de Π --> O, O désignant l'espace
d'observation, qui à chaque individu observable ω de Π fait correspondre sa
description potentielle y(ω) = δ ∈ Ο :
F: Π → Ο
a F( )
Soit y, une fonction de représentation de Ω --> ∆, ∆ désignant l'espace de
description des individus observables (∆ = F(Π) ⊂ O), qui à chaque individu
observé w de Ω fait correspondre sa description d = y(w) ∈ ∆ :
y: Ω → ∆
w a y(w)
Soit une classe observée C ∈ P(Ω). Pour chacune, on peut associer une
définition D = y(C), D ∈ P(∆). En notant b D la fonction d'appartenance à la
classe D :
bD : ∆ → [0,1]
d a 1 si d ∈ D, 0 sinon
D représente la somme (ou disjonction) des descriptions observées de chaque
individu de la classe : D = ∑d. d ∈ D est aussi appelé un exemple de la classe D,
un contre-exemple est donc un élément de ∆\D.
On obtient ainsi le schéma de la figure 3.3 présenté dans [Diday, 1993] :
aC
Ω
[0,1]
y
bD
∆
Fig. 3.3 : Le triangle des fonctions entre individus et leurs descriptions
avec la propriété : ∀ w ∈ Ω, a C (w) = b D(y (w)) = b D o y (w)
88
Chapitre 3
Pour résumer le formalisme, on peut présenter le schéma de la figure 3.4 :
Π
F
Ω
O
∆
y
C
D
d
w
y
Fig. 3.4 : Schéma du formalisme de modélisation des données
Par exemple : si wi = “o” (cf. symbole de la figure 3.5), alors y(wi ) ∈ D1 ,
si wi = “x” alors y(wi ) ∈ D2 .
Le schéma de la figure 3.5 est une illustration des trois niveaux de définition
précédents :
Une description
imprécise
atypique
∆
y2
x
x
x
o
Une intension
généralisée
de D1
Une intension
modale
de D1
x
x
o
x
o
o
Ο
x
x
o
y1
∑ o
Une intension
Une diagnose stricte de D1 (par rapport à D2 )
généralisée
= intension stricte de D1
de D2
(tenant compte de l'imprécision des descriptions)
Fig. 3.5 : Les trois intensions de la classe
Terminologie et concepts mis en œuvre
89
3.3 Classement et classification
3.3.1 Classer et le classement
Classer consiste dans un premier sens à regrouper des individus ou des objets
afin de former des classes. Chacune d'elles se voit attribuer un nom (une
étiquette). Classer est une action en deux étapes : à partir d'un tas d'individus,
on effectue un tri en répartissant les objets selon leurs ressemblances et
différences (on établit une partition des objets), puis on étiquette chaque groupe
ainsi formé par un nom de code. Il existe un second sens au verbe classer qui est
celui de déterminer : assigner la classe à laquelle appartient une chose, un
individu. Nous préférerons employer le terme déterminer pour la seconde
acception.
Le classement, selon les deux sens attribués au verbe classer, permet dans un
sens de constituer des regroupements nommés d'objets a priori afin de former
des classes concrètes (définies en extension par les objets qu'elles possèdent) et,
dans l’autre, à retrouver le nom d'un nouvel individu a posteriori par rapport
aux classes déjà formées. Le classement a priori est une démarche exploratoire
sur un ensemble d'objets dont on ne perçoit aucune définition en l'état (ou dont
la définition n’a pas d’intérêt immédiat). Une personne naïve dans un domaine
est capable d'effectuer ce classement.
Le classement a posteriori permet l'identification des objets entre eux de
manière globale en partant de la classe. Il s'agit d'un processus de comparaison
directe des objets entre eux qui ne nécessite pas forcément l'usage de
descriptions de ces objets, et moins encore d'une quelconque définition de ces
individus.
3.3.2 Classifier et la classification
Classifier, c'est conceptualiser des classes, c'est-à-dire les créer par
classement, puis les définir, et les nommer éventuellement. Classifier est une des
fonctions essentielles de l'intelligence humaine : elle repose sur un plus grand
niveau d'expertise que le classement. Cette notion est souvent confondue avec
déterminer ou identifier en intelligence artificielle où l'on parle de classifier des
observations lorsqu'il s'agit de trouver le nom de la classe auxquels elles se
rapportent. En effet, pour certains statisticiens et mathématiciens, la classification
veut dire la même chose que le classement a posteriori.
La classification, prise dans le sens des systématiciens (“classification des
êtres vivants”) est la faculté de former un classement (en partitionnant), puis
90
Chapitre 3
pour un regroupement donné d'individus, de formuler une définition de ce
groupe. Le résultat s’appelle une classification. Il s'agit de représenter les
caractéristiques de chaque classe : on établit ainsi des classes abstraites définies
en intension par des concepts (et non plus par des objets). De plus, la
classification cherche à hiérarchiser les classes selon leur degré de généralité afin
de former différents niveaux taxonomiques.
Comme on l’a déjà vu au chapitre 1, la classification en analyse des données
n’est pas nécessairement conceptuelle : aucune définition des classes n’est
extraite à partir des données.
Dans toute science, il est nécessaire de classifier les phénomènes et les objets que
l'on veut étudier et ceci est particulièrement vrai dans les sciences qui étudient les
êtres vivants. Une classification vraiment scientifique des végétaux et des
animaux doit être naturelle et non artificielle, c'est-à-dire fondée non sur des
caractères arbitrairement choisis pour une raison de commodité ou d'utilité
quelconque, mais sur les caractères les plus importants du point de vue de la
structure anatomique des êtres et de leurs grandes fonctions physiologiques. Les
classifications de l'histoire naturelle se proposent d'indiquer le degré de
ressemblance et de différence réelle, et non pas apparente et superficielle, de
chaque être avec tous les autres. Certains auteurs affirment (d'autres nient) que
ces ressemblances sont l'expression d'une parenté généalogique entre les
espèces et qu'une bonne classification doit tendre à mettre en évidence la
phylogénie des groupes, c'est-à-dire la suite des formes que l'évolution leur a
fait parcourir.
La classification est la partie noble du classement. Elle consiste à ranger dans un
même groupe (une classe au sens du biologiste) et à désigner du même nom des
faits, des objets ou des êtres qui possèdent en commun certains caractères. Elle
suppose l'analyse, la comparaison, mais plus encore la faculté de faire
abstraction des différences individuelles. La formation d'une idée générale est un
acte de classification. Cette formation s'appuie sur la capacité à décrire les
individus, de les classer et de les nommer avec une étiquette, puis de les définir
par une intension : cette capacité est le propre de l'expert du domaine. La figure
3.6 synthétise ce que l'on vient de dire :
Acteur
Action
Moyen
Résultat
niveau
d'expertise
enfant
répartir
tri
partition
--
naïf
classer
étiquette
classement
(classes)
-+
expert
classifier
critères
classification
(concepts)
++
extension
intension
Terminologie et concepts mis en œuvre
91
Fig. 3.6 : Schéma de comparaison des termes employés en systématique
La classification s’accompagne de la caractérisation des classes (obtenues de
manière expérimentale ou artificielle) : elle recherche les critères représentatifs
(ou caractéristiques) de la classe (par confirmation des ressemblances intraclasse) et les critères de différenciation (ou de discrimination) des classes (par
élimination des différences inter-classe). Elle permet d'expliciter les classes à
partir des descriptions d'individus (explicitant elles-mêmes les individus des
classes). La classification procède par généralisation inductive des
descriptions, elle est une démarche synthétique. Cette synthèse permet de créer
des connaissances nouvelles que l'opérateur espère meilleures pour comprendre
son domaine.
Deux sortes de classification “artificielle” sont évoquées parmi les méthodes
d'apprentissage des descriptions qui nous intéressent :
1) La première sorte procède à partir de descriptions d’un échantillon du
domaine étudié sans connaissance préalable du nom associé à chacune d'elles.
Ces descriptions sont appelées observations en apprentissage automatique car
elles ne possèdent pas d'identification associée (on parle aussi d'apprentissage
sans professeur). Le but consiste ici à découvrir les classes et/ou les concepts
cachés dans les observations.
Ce type de démarche classificatoire, classique en analyse des données (méthodes
factorielles [Benzecri, 1973], nuées dynamiques [Diday, 1971]), et en
taxonomie numérique [Sneath & Sokal, 1973], est aussi appelé catégorisation
[Napoli, 1992] ou classification conceptuelle [Fisher, 1985]. Il procède par
agrégation des observations selon leurs ressemblances avec certaines mesures
de similarité puis caractérisation en interprétant les classes obtenues par un
ensemble de caractères propres permettant de définir les concepts associés.
Le regroupement conceptuel est le même type de classification dans le secteur de
l'intelligence artificielle et qui tient compte en plus de connaissances sur le
domaine [Stepp & Michalski, 1986].
2) La seconde sorte de classification opère à partir d'exemples ou de cas qui
sont des descriptions d'individus observés auxquelles l'expert a attribué un nom
(une étiquette ou bien encore une identification associée après classement) : là,
on connaît le concept à apprendre (la maladie, l’espèce, etc.). Ce type de
classification avec professeur (ou supervisé) est encore divisé en deux sortes :
Le premier, qualifié de “descendant”, est appelé discrimination à partir
d'exemples et procède par segmentation des cas selon leurs différences en
fonction de certains critères: fonction coût [Hunt, 1966], gain d'information
[Quinlan, 1979], réduction d'impureté [Breiman et al., 1984], etc..
92
Chapitre 3
Le second utilise une stratégie ascendante guidée par les données dont
l'algorithme de l'étoile avec les systèmes AQ [Michalski, 1983] est le
représentant le plus typique.
Quels que soient les modes de classification, elles ont pour point commun de
partir de descriptions d'échantillons (pré-classés ou non) pour représenter les
concepts à apprendre. Le schéma de la figure 3.7 synthétise les différentes
interprétations des termes que nous adoptons dans cette thèse. En outre, nous
affirmons que les descriptions sont issues d’observations concrètes et que par
conséquence, nous ne parlerons pas de “descriptions” de concepts au sens de
[Lebbe, 1991] et [Vignes, 1991] : nous parlerons plutôt de définitions de
(associées à des) concepts.
individus observables
tri-classement (par observation)
c1
c2
ci
cn
classes concrètes
cp
∧ ∧
i1 i2
il
individus observés
description (par observation formelle)
d1 d2
∨
C1
C2
dl
∨
Cn
Ci
descriptions
concepts abstraits
Cp
classification (par caractérisation)
D1 D2
Dn
Di
définitions
Dp
intensionn stricte
réduction
généralisation
diagnose Cn/∑Ci
i≠n
intensionn généralisée
extension
encadré
: objets d'observation
souligné
: actions
classen généralisée
conceptuelle
(2 classe concrèten)
Fig. 3.7 : Notre conception des différents termes employés dans cette thèse
93
Terminologie et concepts mis en œuvre
3.4 Détermination et identification
Comme pour la classification, la détermination peut avoir une double
signification opposée : d’une part, on parle de la détermination d’un concept
lorsqu’il s’agit de le définir ou de le caractériser (“déterminer un concept” est
alors équivalent à “classifier”). D’autre part et de façon plus courante, le mot est
employé pour désigner l'action inverse de la classification : c'est une démarche
qui permet de déduire l'appartenance d'un individu à une classe en utilisant sa
définition en intension : cette démarche est analytique. Dans ce sens, il n'y a
pas de détermination possible sans classification préalable. Nous souhaitons bien
distinguer les deux aspects inductif et déductif de la démarche scientifique dans
cette thèse. C’est pourquoi nous emploierons la détermination dans le sens
déductif opposé à la classification inductive.
De plus, la détermination ne doit pas être confondue avec l'identification :
déterminer permet de trouver le nom de la classe ou le concept associé à la
nouvelle observation. Le procédé permettant de passer d'un indéterminé
(individu ou spécimen que l'on peut observer et/ou décrire) à un déterminé
(indéterminé affecté à une classe d'identification) est nommé détermination.
L'identification s'applique plus au domaine de l'extension contrairement à la
détermination qui concerne le domaine de l'intension : dans le langage courant,
identifier est employé plus souvent pour trouver le nom d'un individu (la plupart
du temps un humain), ou un code qui permet de se référer à l'identité de quelque
chose. On dit plutôt “identifier un individu” pour dire que l'on a trouvé son
identité, plutôt que “déterminer un individu”. Inversement, on parlera de
“déterminer la classe d'un individu” lorsque l'on utilisera une définition de son
concept. Pour résumer :
identification
détermination
=>
=>
nom d'un individu (ex : Lee Oswald)
classe d'un individu (ex : Homo sapiens)
d'où : détermination d'un individu
=
identification de sa classe.
Alors que la classification est affaire de spécialistes, il est fréquent que la
détermination soit conduite par un “béotien” en la matière, comme ce douanier
qui doit déterminer s'il a devant lui un animal protégé ou non par la convention
de Washington, ou lors d'un recensement écologique où il est nécessaire de
distinguer (et de désigner) les différentes espèces en présence.
Toute détermination se fait par référence à un corpus de connaissances
préexistant, qu'il soit organisé (clef de détermination, système expert, etc.) ou
non (livres, connaissance résultant d'un apprentissage plus ou moins
empirique).
94
Chapitre 3
Il faut aussi remarquer qu'une détermination ne conduit pas toujours à un résultat
certain, du fait d'inexactitudes ou d'imprécisions soit dans les connaissances de
référence soit dans la possibilité ou la capacité d'observer correctement l'individu
à déterminer. De plus, la précision attendue pour une détermination doit être
adaptée à l'utilisation prévue du résultat ; les applications dans le domaine
scientifique sont bien sûr les plus exigeantes.
Selon les cas, plusieurs situations de détermination peuvent se rencontrer,
isolément ou en concours.
3.4.1 Détermination par comparaison directe
Ce premier mode de détermination exige la disposition d'une collection de
référence (herbier, jardin botanique par exemple) ou d'un substitut (flore où les
différentes espèces sont figurées). Il suffit (non sans mal néanmoins !) de
comparer visuellement l'indéterminé avec chacun des référents disponibles, afin
de sélectionner celui qui correspond le mieux ; le nom de ce référent est alors
adopté comme l'identification recherchée.
Du fait que cette méthode n'astreint pas à décrire, la qualité du résultat est
étroitement dépendante des dons d'observation du déterminateur. Tout tient en
effet en sa capacité de juger de “l'identité” entre deux individus, qui ne sont
pourtant jamais semblables s'agissant de créatures de la nature. Comme aucun
contrôle n'est possible, puisqu'aucune connaissance n'est a priori pré-requise,
elle peut conduire à des erreurs quand l'œil n'est pas suffisamment exercé.
Elle constitue par contre l'ultime confirmation pour le spécialiste, pour lequel la
comparaison visuelle directe avec le type demeure l'épreuve de vérité
irremplaçable. Le type est l'unique spécimen désigné comme le référent absolu
de chaque classe lors de la création de celle-ci ; il n'existe pas de classe
dépourvue de type, sauf celle de l'Espèce Homo sapiens peut-être pour des
raisons éthiques.
3.4.2 Détermination par comparaison avec des descriptions
Ce deuxième mode nécessite d'abstraire le spécimen indéterminé, en en faisant la
description plus ou moins complète. La seule observation n'est plus suffisante.
En effet, la comparaison va se faire non plus avec des référents concrets, mais
avec des descriptions jouant le rôle de référents abstraits. Chaque classe naturelle
est pourvue, outre son type, d'une description ou d'une diagnose (description
différentielle) ; chaque flore ou chaque faune constitue ainsi un recueil de
descriptions, équivalent en quelque sorte de la collection de référence utilisée
pour la comparaison concrète.
Terminologie et concepts mis en œuvre
95
On procède par élimination progressive. Pour chaque caractère examiné, on met
de côté tous les référents incompatibles. Quand tous les caractères ont ainsi été
explorés, soit les référents restant en lice appartiennent à la même classe, et celleci devient la classe de détermination, soit ils se répartissent dans plusieurs
classes et la détermination est incomplète. S'il ne reste aucun référent, il y a une
erreur quelque part, soit dans la description de l'indéterminé, soit dans celle des
référents, soit dans l'affectation des référents aux différentes classes ; à moins
qu'il ne s'agisse de quelque chose de nouveau, ne se rapportant à rien de connu.
3.5 Apprentissage et raisonnement
L'apprentissage est en lui-même une activité intelligente de l'être humain. Le but
de l'apprentissage automatique effectué par une machine est de simuler
l'apprentissage humain à l'aide de différents mécanismes de raisonnement.
Le raisonnement agit sur des connaissances dont on constate plusieurs niveaux
de généralité : faits particuliers, définitions de concepts (règles), méthodes de
résolution d'un problème, méta-connaissances, etc.. De plus, ces connaissances
sont structurées dans notre cerveau selon un modèle. Pour être capable de
simuler le raisonnement, il faut être en mesure de représenter ces différentes
sortes de connaissances. On constate de même que ces connaissances évoluent
avec le temps, dans le sens d'un enrichissement (espéré). Pour Michalski
(1986), l'apprentissage est “lié à la construction ou modification des
représentations de ce que l'on expérimente”.
Si l'on veut doter les machines de capacités d'apprentissage, il faut absolument
prendre en compte la définition d'une structure pour représenter l'espace des
connaissances, ainsi que des moyens d'y accéder pour les modifier ou pour en
générer de nouvelles.
Classiquement, les systèmes experts ont utilisé le formalisme des règles de
production pour modéliser les connaissances d'un expert. L'acquisition des
connaissances s'effectue par l'intermédiaire d'un cogniticien qui aide l'expert à
expliciter ses règles de décision. Ensuite, l'apprentissage met en place un mode
de raisonnement par déduction à partir de ces règles explicites et de faits
nouveaux qui leur sont présentés. Le système expert infère des conclusions dont
les résultats valides seront ajoutés dans la base de connaissances.
Nous considérons l'apprentissage comme le processus de classification
(discrimination) qui permet de généraliser des cas spécifiques pour construire
une définition abstraite (des règles de décision) en fonction d'un “bon” critère de
classification. Il s'agit d'apprentissage où le raisonnement se fait d'abord par
induction. Ensuite, comme pour les systèmes experts classiques, on déduit à
96
Chapitre 3
partir de ces nouvelles connaissances qu'un nouveau cas est couvert par cette
définition abstraite.
Les généralisations “de haut niveau” extraites à partir des cas sont utiles pour
comparer des concepts différents, les valider les uns par rapport aux autres
(notamment par rapport à ceux élaborés de manière classique), mais aussi pour
identifier rapidement une nouvelle observation. Ce raisonnement nécessite donc
une classification préalable.
Une autre forme de raisonnement logique, introduite par Peirce (1965), est
l'abduction. Elle est l'opération qui consiste à choisir une hypothèse
explicative obtenue en faisant la trace arrière des règles du domaine, compte tenu
des conclusions supposées vraies. Par exemple, soit la règle suivante (modus
ponens) qui permet de déduire que si l'on observe du feu, alors on a de la
fumée :
R : ∀ x ∈ {lieux}, feu(x) => fumée(x)
Dire qu'il n'y a pas de fumée sans feu, c'est faire de l'abduction : on fait
l'hypothèse qu'il y a un feu du fait que l'on observe de la fumée et que l'on
connait R. La déduction est le raisonnement inverse exprimé par la règle R. Pour
l'induction, on doit observer qu'à chaque fois qu'il y a un feu quelque part, on
observe aussi de la fumée à ces endroits, et on construit donc la règle générale R.
Une autre forme de raisonnement fait aujourd'hui l'objet de recherches actives :
elle repose sur les exemples eux-mêmes sans chercher à les généraliser. L'idée
consiste à interpréter une nouvelle observation à l'aide d'un cas similaire extrait
du système et choisi comme guide [Bareiss, 1990]. C'est le principe du
raisonnement par cas.
Raisonner consiste à comparer la proximité des cas avec la nouvelle observation
par une mesure de distance. Il ne nécessite donc qu'un classement des individus
au préalable (individus pré-classés par un nom de classe). Pour résumer, nous
donnons la figure 3.8 suivante :
raisonnement
entrée
sortie
déduction
prémisses + règles
concepts
induction
prémisses + classes
règles + concepts
abduction
règles + concepts
prémisses
“par cas”
prémisses + classes
classes
Fig. 3.8 : Les modes principaux de raisonnement en apprentissage automatique
97
Terminologie et concepts mis en œuvre
En définitive, l'aspect très important du raisonnement en apprentissage
automatique doit être la mise en œuvre concertée dans les algorithmes, de
mécanismes symboliques logiques issus des recherches en intelligence artificielle
(représentation des connaissances, règles de généralisation, stratégies de
contrôle, etc.) et de méthodes numériques performantes (distances, mesures de
proximité, entropie, etc.) propres à l'analyse des données et aux statistiques.
Cette nécessité est à l'origine du développement des recherches sur le traitement
des connaissances “symboliques - numériques” en apprentissage [Kodratoff,
Diday, 1991].
3.6 Individus, instances et objets
L'individu est considéré de manière extensive, synonyme d'un élément d'un
groupe ou d'une classe. Dans l'idéal, un individu est un être réel, une entité
tangible et distincte. Il s'agit d'un sujet unitaire correspondant à un spécimen en
biologie. Seul un individu peut être décrit, et ce n'est que dans un sens
généralisé que l'on peut parler de “description de classe”. Dans ce contexte,
l'individu est synthétique et correspond à un ensemble d'éléments distincts
comme par exemple l'Espèce avec ses différents spécimens.
L'instance est l'individu passé, présent et à venir qui appartient à un concept
(le petit chien à naître fait partie du concept de chien) alors que l'individu existe
indépendamment de celui-ci. Pour résumer :
l'individu appartient à la classe
l'instance appartient au concept
Du point de vue mathématique, l'individu fait partie d'une population
observable notée que l'observateur cherche à décrire. Une fois observé,
l'individu devient objet d'observation noté w . Une fois décrit, l'objet a une
description notée d(w). L'observateur ou le descripteur (celui qui décrit) s'est
approprié l'individu (le sujet) qui est devenu un objet de description (observé ou
décrit). La population observée est notée .
L'objet prend différentes significations selon le point de vue et l'échelle
d'observation auxquels l'observateur se place : du point de vue d'une
“description de classe”, l'objet est pris comme un élément de cette classe, c'està-dire un individu. Par contre, si l'on se place à l'échelle d'une description
individuelle, l'objet correspond à un composant de l'individu (ou partie
“individualisable”). Tout dépend donc du point de vue ! Pour résumer :
Un objet
Un individu
=
=
une entité descriptive d'un individu
une entité descriptive d'une classe
98
Chapitre 3
Pour illustrer cette distinction, considérons l'ensemble (taxon) des Mammifères :
en se plaçant du point de vue de la “description de cette classe”, l'objet sera par
exemple une baleine ou un éléphant particulier. Par contre, en considérant la
description d'un individu de la classe des Mammifères, l'objet sera l'une des
entités descriptives de cet individu, à savoir sa tête, son tronc, ses jambes, etc..
Dans cette thèse, nous nous plaçons dans le second cas de figure : nous
souhaitons acquérir des descriptions d'individus dont les objets sont les
différents composants de ces individus à analyser.
Entre individu et classe, la relation qui lie ces deux notions est celle
d'appartenance de l'individu à la classe : l'individu w est un élément de
l'ensemble C. Par opposition, deux classes emboitées sont liées par la relation
d'inclusion ensembliste.
99
Terminologie et concepts mis en œuvre
3.7 Synthèse des concepts utilisés dans cette thèse
Dans ce chapitre, nous avons indiqué les différents points de vue des utilisateurs
systématiciens et mathématiciens sur les mots clé tels que le classement, la
classification, la classe, le concept, etc.. Dans la figure 3.9, nous regroupons les
différents termes employés et nous les organisons de manière à faire ressortir les
relations qu'ils entretiennent :
construction
Domaine
e
x
t
e
n
s
i
o
n
classement
classification
classe
concept
induction
individus
décrits (cas)
descriptions
raisonnement
par cas
identification par
comparaison
définition en
intension (critères)
déduction
i
n
t
e
n
s
i
o
n
détermination
utilisation
Fig. 3.9 : Relations entre les concepts utilisés
Nous pouvons analyser un domaine naturel sous deux angles différents. La
partie grisée correspond plus à la vision du mathématicien contemporain. Il
raisonne dans le monde des idées, c'est pourquoi les notions abstraites de
classification et de concept lui sont plus familières. Il utilise plus naturellement la
déduction pour résoudre un problème de détermination. Contrairement à lui, le
naturaliste raisonne au niveau du monde réel (partie non grisée). Partant d'une
100
Chapitre 3
classe (ensemble d'individus) dont le contenu (l'extension) est sa couverture, il
observe et crée le nom de cette classe puis la définit (en intension) afin de créer le
concept associé. Mais avant de généraliser, le systématicien aura au préalable
décrit beaucoup d'échantillons pour se familiariser avec son domaine. La
construction d'hypothèses par induction n'est néanmoins pas seulement la
démarche des sciences expérimentales, ainsi que nous l'affirment Euler et Pólya
au niveau des mathématiques : la découverte de règles résulte d'un aller et retour
permanent entre des observations et des hypothèses sur ces observations. Nous
affirmons que l'informaticien peut contribuer de manière originale à
l'amélioration des règles apprises en se positionnant au niveau des descriptions
entre les observations et les règles. Par exemple, il peut les rendre comparables
entre elles du fait qu'elles utilisent le même schéma de représentation, celui du
modèle descriptif.
Les descriptions sont au centre des préoccupations des différents opérateurs
(mathématiciens, psychologues, biologistes, etc.) souhaitant faire de la
classification et de la détermination d'objets. Elles permettent d'expliciter un
individu, c'est-à-dire que le fait de connaître la description d'un individu rend
celui-ci explicite. Si elles ne sont pas forcément nécessaires pour faire du
classement ou comparer les objets entre eux, elles sont néanmoins le support de
la transmission du savoir car elles expriment la richesse et la diversité des
observations du monde réel. A ce titre, les descriptions jouent un rôle central en
sciences naturelles comme nous le verrons au chapitre 4. Il sera donc très
important pour l'informaticien de voir comment les rendre le plus robuste
possible.
IV LE ROLE CENTRAL DES
DESCRIPTIONS EN SCIENCES
NATURELLES
Les sciences dites d'observation reposent sur la capacité d'analyser la réalité des
choses, en bref de décrire. L'activité de description va tellement de soi que son
analyse apparaît presque comme superflue. Pourtant chacun sait qu'il y a de
bonnes descriptions et de moins bonnes, et que leur emploi indispensable en tant
qu'outils pose de nombreux problèmes.
Pourquoi les descriptions ? Quelles qualités doivent-elles avoir ? Telles sont les
questions auxquelles il convient d'apporter des réponses claires, avant même de
rechercher quelles solutions informatiques sont de nature à faciliter et à améliorer
les activités de description, telles qu'elles interviennent par exemple en
classification ou en détermination des êtres vivants et autres objets naturels.
4.1 Objectifs de la description1
La description des différentes entités qui composent notre monde est apparue dès
la plus haute antiquité comme le moyen fondamental d'accroissement des
connaissances. Pour “apprendre” ce qu'est un animal, une plante, une roche,
etc., il faut l'observer certes, mais aussi s'en faire une représentation mentale
(pour soi-même) ou écrite (pour les autres). La transmission du savoir implique
la notion de description.
Une description scientifique est une abstraction objective. Abstraction parce
qu'elle permet de s'affranchir de l'observation réelle qui lui a donné matière ; et
objective parce qu'elle ne laisse pas place à l'interprétation. Dans l'idéal, il n'y a
pas de déformation mais une simple transcription “à l'identique” des traits
concrets de l'entité observée en des caractères, ou traits, représentés. La
représentation se fait traditionnellement sous forme textuelle, souvent agrémentée
de dessins ; notre époque voit la banalisation de supports permettant plus de
richesse et de souplesse, qu'il importe de savoir adapter à la complexité et à la
variabilité du monde réel.
1
Les paragraphes 4.1 à 4.5 (inclu) correspondent à la version française de l'article [Le Renard &
Conruyt, 1994].
102
Chapitre 4
Décrire peut constituer un objectif en lui-même. L'intérêt de passer, avec une
perte d'information minime, du niveau concret à un niveau plus “manipulable” se
fait sentir dès que le savoir doit être diffusé. On peut multiplier les descriptions,
pas les originaux. Pour un domaine donné, correspondant à un certain groupe
naturel particulier, les “échantillons” sont en général disséminés dans de
multiples collections, en des lieux divers, ce qui rend leur consultation longue et
difficile ; s'il existe des recueils de leurs descriptions, cela revient en quelque
sorte à démultiplier leur disponibilité. De plus, certains échantillons sont
périssables, ou certains de leurs caractères s'altèrent avec le temps ; les
descriptions et les figurations peuvent permettre dans une certaine mesure de
pallier les problèmes de conservation.
Mais surtout les descriptions constituent l'un des ingrédients de nombreuses
activités scientifiques plus “nobles”. Elles constituent en effet des sources
d'information, de données ou de connaissances, irremplaçables. L'étude des
analogies et des différences entre descriptions est à la base de tous les processus
de classification ; et la comparaison d'un objet naturel (concret ou abstrait) avec
des descriptions préexistantes sous-tend toute activité de détermination.
On peut dire ainsi que l'on décrit pour, dans un premier temps, accroître les
connaissances ponctuelles, et ensuite apprendre la nature à un niveau plus
général et mieux la comprendre. De ce double objectif découlent les qualités que
l'on doit attendre des descriptions.
4.2 Qualités de la description
Nous avons vu que la qualité primordiale d'une description est son objectivité,
c'est-à-dire qu'elle doit être à la fois vraie et complète. Toute méthode visant à
faciliter la description doit donc permettre de couvrir tout ce qui est observable et
de l'exprimer exactement, sans ambiguïté ; cette condition reflète le souci de
maximiser le contenu informatif de la description. Dans l'absolu, une description
parfaite devrait permettre de reconstituer exactement l'objet primitif ; dans la
pratique, on se contente de pouvoir se faire une “bonne idée” de cet objet,
surtout en ce qui concerne ses particularités. Notons que ceci implique que soient
pris en compte non seulement les caractères descriptifs, mais aussi les différents
liens (topologiques, relationnels, de dépendance, etc.) qui peuvent exister entre
ces caractères ; car ces liens sont eux-mêmes porteurs d'information.
D'autres qualités annexes peuvent être citées, comme la clarté et la concision,
valables pour tout écrit scientifique. Certains auteurs s'attachent à l'élégance du
texte ; une bonne forme et un bon style ne sauraient en effet nuire à un bon
contenu. Il est rarement fait cas de l'intelligibilité, qualité qui rendrait la
compréhension de la description aisée même par un non spécialiste ; elle
implique le recours à un vocabulaire moins technique, avec en contrepartie une
Le rôle central des descriptions en sciences naturelles
103
perte de concision et de précision : il y a donc là un compromis à trouver, dans
l'attente d'une solution qui permettrait d'adapter le “niveau” de la description à
celui de l'utilisateur. Mais il ne suffit pas à une description d'être excellente en
elle-même : il lui faut de plus être comparable.
4.3 Qualités des descriptions
Aux fins de classification ou de détermination, l'essentiel est de pouvoir
comparer des descriptions entre elles. Quand ces descriptions ont été rédigées
par un même auteur, elles suivent généralement un même plan d'ensemble, ce
qui facilite les comparaisons en localisant les caractères homologues à des parties
correspondantes des textes. Mais, quand les auteurs sont différents, ils ont pu
suivre des “méthodes” d'observation hétérogènes ; les comparaisons en sont
rendues bien plus délicates.
La notion d'homologie est essentielle ; elle permet de s'assurer que l'on ne
compare que des caractères comparables et découle du fait que tous les objets
biologiques possèdent un plan d'organisation, qui se retrouve identique chez
leurs semblables. La reconnaissance et la prise en compte de ce plan de
constitution général autorise une structuration naturelle des descriptions, suivant
ce que nous appellerons un modèle descriptif.
Remarque : Les considérations précédentes concernent virtuellement toutes les
descriptions d'objets naturels. Cependant, aussi bien en classification qu'en
détermination, chaque spécialiste limite ses études à un domaine plus particulier,
comme un groupe zoologique ou botanique, et/ou une zone géographique, et/ou
un écosystème, etc.. Dans cette thèse, c'est un tel domaine bien délimité que
nous aurons en tête, plutôt qu'un “système universel” encore actuellement
inaccessible.
4.4 La représentation des données descriptives
Partant du principe que l'on ne comprend que ce que l'on modélise, et qu'il vaut
mieux adapter le modèle à la réalité que l'inverse, nous allons étudier plus en
détail quels sont les éléments constitutifs d'une description, et comment ils sont
agencés entre eux par le descripteur. (Nous appelons ainsi la personne,
généralement un spécialiste, qui fait la description, et non un caractère décrit qui
devrait s'appeler un ... décrit ou descriptum). Nous en déduirons comment
doivent être conçus les modèles descriptifs, en tenant compte des contraintes de
qualité énoncées précédemment.
104
Chapitre 4
4.4.1 Structuration naturelle
Plaçons-nous dans le cadre d'un domaine quelconque ; par exemple les animaux
de la ferme, domaine pour lequel chacun peut revendiquer le titre de
“spécialiste”. Et voyons comment le spécialiste va s'y prendre pour classifier et
déterminer ces animaux.
Première observation : tous ces animaux ont quatre membres, deux à l'avant,
deux à l'arrière. Les membres antérieurs sont soit des pattes, soit des ailes chez
les volailles. On apprend ainsi qu'il existe deux catégories principales, que le
spécialiste dénommera aussitôt Mammifères et Oiseaux (avec des majuscules : on
est dans un domaine scientifique). Ensuite, parmi les Mammifères, le chat et le
chien de la ferme se distinguent en mangeant de la viande. Voilà deux autres
catégories : Carnivores pour eux, Herbivores pour les autres. Parmi les
Carnivores, il y a le Chat qui ressemble au Tigre, et le Chien qui ressemble au
Loup : Félins et Canins. Etc. On voit s'établir de la sorte une véritable hiérarchie
de catégories (ou classes, au sens large du terme), de la plus générale (Animaux)
aux plus particulières (les Espèces, comme Chat, Chien, Cheval etc.). Cette
“systématique” s'appuie sur une hiérarchie de caractères discriminants (la nature
des membres antérieurs, le régime alimentaire, etc.) plus ou moins faciles à
mettre en évidence ; par exemple, sur quoi s'appuie la distinction entre Félins et
Canins ?
C'est le propre du spécialiste de savoir reconnaître du premier coup d'œil : il est
expert de son domaine. Mais pour comprendre, pour connaître, il a besoin
d'analyser la réalité de plus près. Ce n'est qu'après avoir fait (ou avoir lu) les
descriptions des divers Félins que lui-même (ou un autre spécialiste avant lui)
pourra préciser la définition de la classe appelée Famille des Félidés et dire
qu'elle se différencie, entre autres, par la présence de dents postérieures
tranchantes dites carnassières, là où ne se montrent chez les Canidés donc chez le
Chien que des molaires peu spécialisées.
On peut noter dès ici que la “distinction entre Félins et Canins” relève en fait de
deux approches duales. Dans un sens, celui suivi en classification, on apprend,
par un processus de généralisation, que le caractère “présence de carnassières”
synthétise (on dit : subsume) tout ce qui a pu être observé chez les différents
Félins en matière de dents postérieures. Dans l'autre sens, celui suivi en
détermination, on déduit, par l'analyse du fait qu'il a des carnassières, que
Minou est un Félin et non un Canin. Mais dans les deux cas, il a fallu recourir à
la description des dents postérieures ; c'est ce que nous appellerons une
description locale.
Le rôle central des descriptions en sciences naturelles
105
4.4.2 La logique de composition
La description d'une entité (disons d'un chat, ou d'un chien) est une
composition de descriptions locales, correspondant à tout ce qui est observable
(donc descriptible).
L'ordre dans lequel progresse la description n'est pas quelconque, mais répond à
une certaine logique qu'il convient de reconnaître. Alors que le chat et le chien
sont tous deux composés d'un corps, d'une tête, de quatre pattes et d'une queue
(ils héritent tout cela de leur appartenance à la classe des Mammifères), ce serait
de l'anticonformisme que de faire commencer leur description par la queue ;
commencer par les pattes serait curieux, à moins que le descripteur ne soit une
fourmi ; quant au choix entre le corps et la tête, il reste ouvert. En fait, cette
logique est affaire de spécialistes, qui seuls sont capables de se mettre d'accord
pour cerner l'ordre le plus “naturel” à suivre lors des descriptions. Si c'est la tête
qui vient en ... tête, selon une logique toute trouvée, alors la description
s'intéressera d'abord à ses caractères propres, comme sa forme, ses dimensions,
sa couleur, etc., à ses rapports avec les autres parties, et ensuite, ici aussi selon
un ordre non arbitraire, on passera à la description de ses sous-parties (yeux,
bouche, nez, oreilles, etc.). Et ainsi de suite.
Ce mécanisme de base est celui de la décomposition en sous-parties ; il est répété
autant de fois qu'il est nécessaire pour atteindre la finesse de description
souhaitée (qui, rappelons-le, dépend de l'utilisation visée). On peut convenir
ainsi d'un “arbre d'exploration”, à chaque nœud duquel on doit effectuer une
description locale, et dont chaque branche traduit une relation de partie à souspartie. Pour que cet arbre n'introduise pas de limitation arbitraire, il doit prévoir
toutes les situations susceptibles de se rencontrer, y compris les cas particuliers
et les exceptions. De ce fait, il est généralement plus touffu qu'il n'est nécessaire
pour chaque situation de description considérée individuellement, où certaines
branches peuvent s'avérer non pertinentes ou sans objet.
En particulier, lors des descriptions, il est fait appel à un mécanisme d'élagage
automatique, de pur bon sens. Ainsi, le fait de constater l'absence d'une certaine
partie rend sans objet la description de ses sous-parties ; de même, si par
exemple je décris Médor, le chien de garde de la ferme, et qu'il ne veut pas
ouvrir la gueule, je préfèrerais qu'on me dispense de décrire ses dents ou sa
langue. Ceci illustre une situation couramment rencontrée lors des descriptions
d'objets naturels, où certaines descriptions locales ne sont pas possibles du fait
de la situation d'observation (partie cachée ou présentement indistincte) ou du
fait de l'état incomplet du spécimen décrit. On peut considérer que, par
convention, l'absence d'une description locale signifie que la partie
correspondante est inconnue ; par opposition, le fait que cette partie soit
constatée absente constitue une information qui doit figurer explicitement dans la
description.
106
Chapitre 4
Cette dernière distinction est importante. Quand je décris un Chat, si je déclare
qu'il n'a pas de queue, je m'oriente vers le fait qu'il appartient à la race Manx
(chats sans queue de l'Ile de Man), à moins qu'il ne s'agisse d'un accident. Par
contre, si je reste muet sur sa queue, je n'apporte aucune information ; la “valeur
«inconnu»” souvent invoquée dans ce cas est un non-sens, ou pire un artifice
tendant à donner la forme d'une information à ce qui n'en est pas.
4.4.3 La logique des points de vue
Il arrive souvent que la description d'un objet naturel puisse se faire à différents
niveaux. Par exemple, elle s'intéressera à la morphologie, ou à l'anatomie, ou à
la cytologie, voire à la biochimie ou la carte génétique. Ceci est vrai d'ailleurs
pour chacun des points d'observation ou parties concernées. Il faut donc pouvoir
répartir l'information selon ces différents points de vue, et tenir compte des
relations structurelles existant entre ces différents plans d'observation.
Pratiquement, la logique des points de vue est très semblable à la logique de
composition. Cependant elle ne possède pas une sémantique aussi riche ; le fait
que, dans une description d'une partie donnée, un niveau d'analyse ne soit pas
accessible n'implique pas que ce niveau demeure inaccessible lors de la
description des sous-parties. Une autre différence réside dans le fait que, lors
d'une classification, l'absence avérée d'une sous-partie sera prise en compte
comme une information, alors que l'absence d'un point de vue n'a aucune
signification classificatoire.
L'intérêt de cette logique est de permettre l'analyse des descriptions de plusieurs
entités selon des points de vue analogues. Alors que l'on s'attendrait à ce qu'une
classification établie selon un certain point de vue (disons la morphologie
externe) corresponde à la classification établie selon un autre point de vue
(disons le génome), force est de constater généralement des divergences de
résultats. Pour expliquer ces écarts, il est nécessaire de pouvoir disposer de
“passerelles” entre les différents points de vue, donc de les appliquer à une
structure commune ; c'est là l'un des gros intérêts d'établir un modèle descriptif,
qui permet de préserver l'homologie même à des échelles d'observation
différentes. Le modèle descriptif permet en quelque sorte d'indéxer les
connaissances, de les positionner les unes par rapport aux autres ; c'est un peu
l'équivalent des structures relationnelles et/ou hiérarchiques dans les banques de
données.
4.4.4 La logique de spécialisation
Revenons aux animaux de la ferme, et supposons que nous disposions d'une
classification des différents types de ferme d'élevage. Alors que, si nous ne
savons rien de “notre” ferme, le modèle général des animaux qui y sont élevés
comporte quatre membres, s'il s'agit d'une ferme spécialisée dans l'aviculture,
nous pouvons partir d'un modèle plus précis, d'animaux pourvus de deux ailes,
Le rôle central des descriptions en sciences naturelles
107
de deux pattes, d'un bec, de plumes, ou au contraire dépourvus de cornes ou de
dents, etc..
Le fait de disposer, à un niveau déjà abstrait, d'un concept plus précis de notre
ferme nous permet de restreindre l'étendue du domaine de connaissances, et de
renseigner par avance (sans observation) un certain nombre de descriptions
locales. Ce mécanisme, dit de spécialisation, est d'une généralité telle qu'il peut
être découvert dans de très nombreuses descriptions rédigées par les naturalistes,
en lieu et place de véritables descriptions locales. Ainsi, la simple indication que
notre ferme élève des oiseaux aquatiques (des canards par exemple) supplée en
partie à une description des pattes (qui sont toujours palmées) ou du plumage
(qui est toujours étanche à l'eau).
La spécialisation constitue ainsi un raccourci commode, permettant de remplir
“par défaut” tout ou partie d'une description locale réelle par une description
conceptuelle. Ceci comporte bien sûr un risque d'imprécision, voire
d'inexactitude ; il est donc nécessaire de compléter “manuellement” l'information
ainsi déduite.
4.4.5 La logique de particularisation
Alors que la spécialisation procède par restriction du domaine observable, la
particularisation permet au contraire d'élargir le domaine courant pour tenir
compte d'un cas particulier. Supposons que nous apprenions que notre ferme
fait de l'aquaculture ; donc plus d'animaux à quatre membres, mais des poissons
(pisciculture) ou même des huîtres (ostréiculture). Les descriptions vont devoir
tenir compte de caractères concernant des écailles, des nageoires, ou des
coquilles ; si ces caractères n'étaient pas présents dans le modèle général des
animaux de ferme, il va falloir, pour ce cas particulier, procéder à un
élargissement du modèle.
Cette démarche, complémentaire de celle de spécialisation, apparaît comme une
complication (un peu comme les “verrues” dans un logiciel). Il semble préférable
de ne la suivre que dans des situations réellement exceptionnelles, telles qu'il soit
justifié de les traiter à part plutôt que de les intégrer dans le moule général.
4.4.6 La logique d' itération
L'étude des mécanismes précédents s'est appuyée implicitement sur une mise en
correspondance d'une part d'une description composée de sous-descriptions (ou
de descriptions locales), d'autre part d'un modèle descriptif composé de sousmodèles descriptifs. La description concerne l'observé, le modèle concerne
l'observable.
Il arrive fréquemment que, dans une description, plusieurs caractères, bien que
non rigoureusement identiques, soient du même “type” et suivent un même sousmodèle descriptif. Prenons l'exemple des dents des Mammifères. Si nous avons
108
Chapitre 4
à décrire la denture d'un homme (si nous avons peur de celle du chien), nous
voyons bien qu'il existe plusieurs sortes de dents, disons 3 ou 4 sortes selon
notre perspicacité. Les plus savants les désigneront d'emblée : incisives,
canines, prémolaires et molaires ; mais il n'est nullement nécessaire de connaître
leur nom pour les décrire correctement. Il suffit de suivre un sous-modèle
commun de description des dents, et de l'appliquer de façon itérative autant de
fois que nécessaire (ici 3 ou 4 selon que le descripteur percevra ou non la
différence de nature entre les prémolaires et les molaires).
Nous avons en effet vu l'importance du respect du principe d'homologie. Si
nous devons comparer dans le détail les dentures du chien et du chat, il faut
s'assurer que nous comparons bien les canines (ou “crocs”) de l'un avec les
canines de l'autre ; sinon, on s'égare. Il faut être conscient du risque
d'interprétation (donc de subjectivité) qu'il peut y avoir à s'aventurer dans des
“déterminations locales” ; le descripteur, non averti des limites de son savoir, qui
désignerait comme des canines les défenses du Morse et celles de l'Eléphant
commetrait une erreur, qui par suite le conduirait à comparer des objets non
véritablement homologues : les défenses de l'Eléphant sont des incisives
modifiées, contrairement à celles du Morse qui sont bien des canines, quoique
d'une taille exceptionnelle. Il est vrai qu'il est difficile de se borner à décrire,
sans rechercher à comprendre et à apprendre ; mais, paradoxalement, une bonne
description ne devrait pas faire appel à l'intelligence, au risque de se trouver
biaisée par un modèle mental hélas faillible. En boutade, cela ne désigne-t'il pas
les activités de description comme d'excellents clients pour l'intelligence
artificielle ?
Une autre situation peut se rencontrer lors des descriptions. Supposons que nous
procédions à la description locale de l'inflorescence d'une plante, et que le sousmodèle descriptif correspondant donne comme liste des couleurs possibles
blanc, jaune et rouge, et autorise plusieurs réponses (choix multiple). Si nous
répondons à la fois blanc et jaune, cela signifie que la couleur est blanc ou jaune,
et traduit une imprécision (peut-être une nuance intermédiaire comme un blancjaunâtre ?). Pour exprimer que nous observons effectivement les couleurs blanc
et jaune simultanément, il faut procéder à deux descriptions locales successives,
l'une de fleurs de couleur blanche uniquement, l'autre de fleurs de couleur
jaune ; il est en effet fort probable que ces deux types de fleurs ont d'autres
caractéristiques qui les distinguent, comme leur localisation au sein de
l'inflorescence voire même leur sexe, et qu'elles n'ont pas la même signification
organique.
Remarque : Il faut bien distinguer de ce dernier cas la description des
associations (de couleur par exemple) bien répertoriées sous le nom de
panachures, de mosaïques, etc.. Le fait qu'une feuille soit panachée vert et jaune
ne doit pas se traduire par le choix simultané de vert et de jaune, mais par le
109
Le rôle central des descriptions en sciences naturelles
choix unique de l'association vert+jaune dûment répertoriée. Ceci peut se
traduire dans le modèle descriptif par une hiérarchie de valeurs du type :
couleur de la feuille
panachée
vert+jaune
vert+violet
unie
vert
violet argent
Le processus d'itération est donc celui qui doit être mis en œuvre chaque fois
qu'il faut exprimer des faits conjoints, c'est-à-dire qui sont constatés
simultanément.
4.4.7 Les conditions contextuelles
Les caractères sont généralement dépendants les uns des autres. Plutôt que de
déformer la réalité en émettant une quelconque hypothèse d'indépendance (trop
rarement vérifiée), il convient de tirer parti au maximum de toute l'information
véhiculée par ces relations.
Particulièrement fréquentes sont les relations de concomitance et d'exclusion.
Elles traduisent respectivement une condition de présence ou d'absence d'un
caractère en fonction du “contexte” formé par d'autres caractères. Par exemple, il
intervient dans la classification des Mammifères le fait qu'ils soient ou non dotés
d'un placenta (distinction entre les Placentaires et les Aplacentaires) ; il est bien
évident que cela ne saurait être observé chez les individus mâles ; si le contexte
de la description correspond à un taureau, il est “non pertinent” de s'intéresser à
savoir s'il est gravide, ou au nombre des pis portés par ses mammelles. Notons
que, comme pour la “valeur «inconnu»”, cela n'a pas de sens de parler de
“valeur «n. p»” sauf s'il s'agit de combler des cases vides dans un tableau de
caractères : l'information liée à la “non pertinence” du caractère gravide est
entièrement portée par le fait que le taureau est de sexe mâle, et traduit le fait
général de l'exclusion entre masculinité et gestation. La nature est ainsi faite.
On imagine sans mal l'existence de relations de concomitance, quand la présence
d'un caractère découle “automatiquement” du contexte. De telles relations ne sont
parfois sensibles qu'au spécialiste, et lui permettent de constituer son expertise.
Nous prendrons un exemple réel tiré du diagnostic en maladie des plantes, où
l'expert, constatant un dessèchement de l'extrémité des feuilles, va regarder à
l'endroit le plus inattendu, à savoir le “collet” (base de la tige), s'il n'y a pas là
un “chancre” qui entraverait la circulation de la sève; il exploite de la sorte une
relation de concomitance, et plus précisément une relation de cause à effet.
Du fait de la variété de la nature, les dépendances entre caractères ne sont que
rarement absolues ; par exemple, il existe des dessèchements non dûs à un
110
Chapitre 4
chancre du collet, et la nature a horreur des “règles” et “lois” dépourvues
d'exceptions : c'est le mâle de l'Hippocampe qui est enceint ! Il importe donc,
non seulement de tenir compte des relations de dépendance, mais de pouvoir
préciser leurs limites d'application, donc les exceptions et les “contextes”
afférents.
Dans de nombreuses situations d'observation, une partie de ce qui devrait
théoriquement être observable ne l'est pas ; ou au contraire, une description
locale n'est possible que dans certaines conditions. Ceci peut ici encore se
traduire par des règles contextuelles, par exemple : Si le chien est méchant, ne
pas observer ses dents ; ou : Si l'oiseau est en vol, décrire les marques du
dessous de ses ailes. Ces conditions traduisent des “connaissances” de bons
sens, et peuvent être utilement exploitées pour guider “intelligemment”
l'observation.
4.5 Représentation structurée selon un
descriptif
modèle
Pour un domaine donné, le modèle descriptif est créé par l'expert. Il doit
représenter sous une forme structurée tout ce qui est observable.
De plus, le modèle descriptif a pour objectif majeur de constituer un guide
d'observation lors des descriptions. Il doit être à même de traduire sans les
contraindre l'ensemble des mécanismes ou logiques d'observation mises en
évidence précédemment. Il s'agit donc d'une représentation de l'ensemble des
connaissances sur l'observable, adaptée à l'acquisition des connaissances sur
l'observé.
Pour un domaine donné, le modèle descriptif peut revêtir, de façons
équivalentes, plusieurs formes, selon l'utilisateur visé.
De façon profonde, il est représenté sous une forme informatique, adaptée à une
base de connaissances observables ; on y trouvera des objets, des “frames”, des
listes, des tableaux, des règles, des illustrations, etc., rédigées selon une syntaxe
traduisant aussi exactement que possible les différents mécanismes d'observation
et les “connaissances de fond” sur le domaine. Sous cette forme, il n'est pas
destiné à être lu par le naturaliste ; c'est seulement une représentation technique,
servant d'entrée et/ou de sortie aux différents modules de traitement des
descriptions. Le modèle informatique se doit bien sûr de suivre un formalisme
immédiatement transposable au plan mathématique, afin de permettre
l'exploitation des connaissances par les logiciels d'analyse de données
symboliques, d'induction et autres.
Le rôle central des descriptions en sciences naturelles
111
Au naturaliste spécialiste du domaine, qui travaille à son élaboration et à sa mise
au point, le modèle descriptif doit se présenter de façon beaucoup plus pratique
et synthétique. Son caractère structuré justifie une présentation sous forme d'un
graphe d'organisation du domaine, dans lequel apparaissent au premier aspect
les différentes parties ou sous-parties, avec leurs relations et leurs
caractéristiques propres. La manipulation de ces “objets” (au sens informatique
du terme), pour les créer, les modifier, les déplacer, leur associer des
illustrations etc, gagne à se faire par voie graphique, grâce à des outils
interactifs, simples d'emploi pour les mettre à la portée des biologistes non
informaticiens.
Un dernier habillage, peut-être le plus important pratiquement, permet de
présenter le modèle descriptif comme un véritable guide d'observation ; nous
l'avons appelé “questionnaire” dans les applications que nous avons
développées, car c'est lui qui est mis entre les mains du descripteur, et donne la
possibilité de naviguer de manière souple mais logique entre différents écrans de
saisie. Chaque écran (“carte” selon l'outil HyperCard ici employé) correspond à
l'acquisition d'une description locale, en exacte conformité avec la partie
correspondante du modèle descriptif. Notons ici que le modèle descriptif peut
prévoir une gradation dans la précision des réponses, voire autoriser la fameuse
réponse “?” qui traduit l'incertitude totale ; ceci est absolument essentiel lors de
descriptions réelles, où le contexte ou les circonstances n'autorisent pas toujours
des descriptions complètes (Cave canem !).
Les descriptions obtenues, dont la cohérence est assurée à chaque étape et dont la
complétude est vérifiée en fin de saisie, peuvent être présentées à leur tour sous
plusieurs formes. Leur forme initiale, qui est celle du questionnaire une fois
rempli, peut être ré-importée pour apporter des corrections ou des compléments
de description. Mais il est parfois utile de pouvoir les visualiser sous forme d'un
sous-graphe instancié du modèle descriptif ; cette présentation permet de faire
ressortir la structure sous-jacente à la description, qui est quelque peu perdue de
vue lors de la navigation dans le questionnaire. Ces deux formes sont en fait très
complémentaires, et la possibilité doit être donnée de basculer aisément de l'une
à l'autre.
D'autre part, il est presque nécessaire de pouvoir présenter à l'utilisateur les
descriptions sous forme d'un texte en langage naturel, ainsi qu'il y est habitué
depuis toujours ; il n'est pas difficile à ce niveau d'offrir le choix entre plusieurs
langues-cibles. Enfin, les descriptions saisies sont archivées avec la même
représentation informatique que les modèles descriptifs, par souci d'efficacité et
d'homogénéité ; de la sorte, les connaissances sur l'observable et celles sur
l'observé bénéficient du même formalisme particulièrement adapté, ce qui permet
de les utiliser de façon conjointe et de rendre plus cohérents et plus efficaces les
programmes qui les traitent.
112
Chapitre 4
Nous détaillerons au chapitre 6 les différentes solutions techniques qui nous ont
permis de formaliser au plan informatique les mécanismes observationnels
décrits ci-dessus. Il est fait appel à des “frames” comme base de la structure. les
frames sont des “objets” possédant des attributs propres. Chaque attribut peut
prendre une ou plusieurs valeurs possibles (dans une liste, éventuellement
hiérarchisée, s'il s'agit de valeurs symboliques ; dans un intervalle pour les
valeurs quantifiées) ; une fois valué, l'attribut exprime un caractère décrit ou
trait. Quand les objets correspondent à des sous-parties (mais pas à des points de
vue), leur absence constatée est enregistrée comme significative. Les
mécanismes de spécialisation et de particularisation sont classiquement traduits
par l'instanciation de “classes” (au sens informatique du terme) avec héritage. Le
mécanisme d'itération implique quant à lui la mise en œuvre d'une logique du
premier ordre, avec l'utilisation de “variables”. Enfin les conditions contextuelles
sont exprimées sous forme de règles ou de démons.
Il est ainsi possible, grâce au recours à des méthodes de représentation des
connaissances issues de l'intelligence artificielle, de formaliser des descriptions
aussi complexes que l'exige la “vérité” de la Nature, sans biais de transposition,
sans avoir recours à la subjectivité, et limitant la perte d'information autant que
voulu.
Il existe un bon moyen de s'assurer de la qualité des descriptions ainsi obtenues.
Il suffit en effet de comparer ces descriptions, produites sous leur forme rédigée
en langage naturel, avec celles directement réalisées par les spécialiste du
domaine. Il est très facile d'évaluer alors les défauts des unes et des autres ; ceci
indépendamment du fait que les descriptions “conformes” (au modèle descriptif)
possèdent l'énorme avantage d'être comparables entre elles et aisément
mobilisables.
4.6 Illustration sur les données des éponges marines
4.6.1 Acquérir l’observable
Représenter le modèle descriptif, c'est-à-dire acquérir l’observable, est l’étape la
plus importante de la conception des systèmes de détermination. De la qualité du
modèle descriptif dépendra la qualité des descriptions et, par voie de
conséquence, la qualité des classifications et des déterminations futures.
Le modèle descriptif regroupe toutes les connaissances observables d'un
individu du domaine des Hyalonema. Les objets du modèle correspondent aux
différents composants descriptifs de cet individu. L'élaboration de ce modèle est
un processus mettant en jeu les connaissances de l'expert du domaine et le
cogniticien chargé de représenter ces connaissances dans la syntaxe du langage
basé sur les frames (voir § 6.4.2). Ce processus peut être itératif dans la mesure
Le rôle central des descriptions en sciences naturelles
113
où des corrections sur le modèle se révéleront souvent nécessaires après la phase
d'exploitation de celui-ci.
Cette première étape s'appuie sur l’expérience de l’expert, c'est-à-dire sur ses
observations initiales : la genèse de l’observable se fait donc forcément à partir
de l’observé préexistant. Il est très important que le spécialiste focalise son
attention à ce niveau car là se trouve reproduite une grande partie de son
expertise qui sera ensuite utilisée par les outils. L’expert doit faire une analyse
exhaustive de la variabilité de l’observé, afin d’être en mesure de synthétiser un
modèle complet de l’observable. Cette phase est bien évidemment contraignante
mais elle permet d’éviter des retouches futures du modèle, qui ne devront être
que locales et ne pas affecter sa structure globale.
Les logiques de description que nous avons introduites précédemment montrent
les différents aspects théoriques de la modélisation d’un domaine biologique.
Plus pratiquement, ces aspects se retrouvent à différents niveaux dans la
conception d’un modèle descriptif tel que celui sur le Genre Hyalonema.
Les concepts descriptifs n'ont pas le même niveau sémantique, certains se
plaçant au niveau de la décomposition d'un domaine, d'autres au niveau d'une
description locale d'un composant du domaine. C'est pourquoi il est très
important de les différencier dans l'optique de construire un questionnaire ayant
la qualité d'un bon guide d'observation.
Nous avons conçu le modèle observable à trois niveaux de description : objetattribut-valeur que nous explicitons dans les trois paragraphes suivants. Ensuite,
nous caractérisons chacun de ces trois niveaux plus précisément, ce qui constitue
notre méthode d’élaboration du modèle descriptif.
4.6.2 Décomposition de l’entité globale en objets
Ce procédé correspond à la logique de composition (§ 4.4.2). Cette logique
naturelle introduit la relation de dépendance entre les objets. En effet, le
mécanisme le plus évident consiste à partitionner la description en sousdescriptions plus ou moins indépendantes les unes des autres et que l'on appelle
des descriptions locales. Ceci est obtenu en décomposant l'entité physique
observable en sous-parties, chacune d'elles donnant accès à ses propres sousdescriptions. Nous avons déjà mentionné au chapitre 3 qu’à l’échelle d’une
description individuelle, l’objet équivalait à un composant de l’individu.
Par exemple, une éponge est une entité constituée de parties physiques avec
certaines relations entre elles, dont principalement la relation de sous-partie. On
décomposera donc l'éponge en différentes sous-parties décrites localement par
des caractéristiques propres. Cette décomposition suit le principe logique qui
veut que l'on décrive les objets en allant du plus général au plus particulier.
114
Chapitre 4
Ex : l’éponge possède un corps et un pédoncule, le corps est constitué de...
4.6.3 Recherche des attributs de chaque objet
Parmi les faits observables d'un domaine, il y a les objets observables liés entre
eux par des relations, ainsi que leurs caractères observables (caractéristiques,
propriétés, variables ou attributs) et les différents états possibles de ces
caractères (valeurs d'attributs).
Un objet observable est un élément de description qui possède des
caractéristiques propres. Il est défini par son existence en tant que composant au
sein de l'entité ou individu à analyser. Par opposition, les attributs n'existent pas
par eux-mêmes sans référence à un objet préexistant. Chaque objet forme donc
un tableau avec la liste de ses attributs propres dans autant de colonnes.
Considérons l'attribut “taille” de l'objet “corps” de l’éponge. Cette “taille”
n'existe pas sans faire référence à l'objet “corps”, alors que le “corps” existe par
lui-même dès lors que l'on considère le domaine des Hyalonema. Pour
différencier les objets des attributs pour un domaine particulier, il suffit de se
poser les questions suivantes : “Y a t-il un... objet ?” et “Y a t-il un objet ayant
tel ... attribut ?”.
De même, nous aurions pu tout aussi bien considérer la taille de l'objet
“amphidisques” qui est un élément microscopique de l’éponge. Bien qu’ayant le
même nom de propriété, le domaine de définition des valeurs prises par l'attribut
est différent. La liste des valeurs possibles de l'attribut dépend donc de l'objet
considéré.
4.6.4 Recherche des valeurs de chaque attribut
Une valeur observable correspond à un état possible de l’attribut de l’objet pour
l’individu à observer. L’ensemble des états possibles de l’attribut pour l’objet
observable forme l’espace d’observation noté O. Cet espace relatif à l’objet
étudié ne doit pas être confondu avec le référentiel (ou domaine de définition)
qui est l’ensemble de tous les symboles relatifs à l’attribut pris isolément. Par
exemple, le référentiel de l’âge en années est l’ensemble des réels positifs alors
que l’espace d’observation de l’âge d’un humain est un sous-ensemble de R+ tel
que [0, 120?].
Les valeurs d’un attribut devraient avoir comme caractéristique d’être
mutuellement exclusives (sans recouvrement). Cette propriété est nécessaire pour
permettre de comparer sans ambiguïté des descriptions [Vignes, 1991]. Ainsi
pour tout attribut, un objet ne possède normalement qu’un seul état. Si au
moment de son observation, on lui associe plusieurs valeurs, ou un intervalle de
Le rôle central des descriptions en sciences naturelles
115
valeurs, cela ne peut traduire qu’une imprécision et non pas une gamme de
variation (voir § 4.6.9).
La valeur est reconnaissable en répondant à la question “Y a t-il un objet avec un
attribut qui vaut... valeur ?”
Résumé
Pour créer un objet, un attribut ou une valeur, on doit donc se poser les trois
questions suivantes :
◊ l’objet est-il un composant descriptible de l’objet ... ?
◊ l’attribut est-il une caractéristique substantive propre de l’objet ... ?
◊ la valeur est-elle un qualificatif de l’attribut ... ?
Certains auteurs comme Lebbe [Lebbe, 1991] appellent nos valeurs des attributs
(avec une acception linguistique), nos attributs des qualités, les objets des sujets
et la composition “qualité[sujet(s)]” est appelé un descripteur (connotatif au sens
de [Colless, 1967]). Nous préférons employer la terminologie objet-attributvaleur des langages de frames car nous pensons qu’elle permet de mieux mettre
en valeur les trois niveaux grammaticaux de description de l’observable.
4.6.5 Les propriétés d’un objet observable
4.6.5.1 Statuts
Tout objet observable créé est par nature potentiellement présent : par la suite, il
peut donc être décrit (la présence d’un objet est la condition nécessaire et
suffisante à sa description). De plus, au moment de la création d’un objet
observable, on peut définir ses alternatives d’observation possibles (1, 2 et 3)
ainsi que sa sémantique (4) lors des futures descriptions :
1) l’absence de l’objet peut ou non revêtir une signification classificatoire,
2) lorque le contexte de l'observation ne permet pas de le décrire, la réponse
“inconnu” est autorisée ou non,
3) on pourra ou non en observer différentes sortes,
4) l’objet a une signification classificatoire, ou au contraire il n’intervient
que pour structurer le domaine.
1) L’absence d’un objet est une information à prendre en compte pour deux
raisons : la première est qu’elle permet d'inférer des règles implicites très fortes :
les sous-parties d'un objet absent sont nécessairement absentes. La seconde est
qu’elle possède un sens pour la classification.
116
Chapitre 4
Considérons l'objet “amphidisques”, ce micro élément peut être absent d'une
éponge de manière naturelle, ce qui peut être une information discriminante.
Inversement, le pédoncule de l’éponge est un objet qui ne peut être naturellement
absent d’un individu (dans le cas des Hyalonema) : le statut “absent” n’est pas
admissible. Il arrive néanmoins que cet objet ne soit pas présent pour un
spécimen à observer (du fait que le pédoncule a été arraché du corps lors de la
récolte par exemple). L’absence porte alors la même signification que l’inconnu
dans ce contexte car l’expert sait qu’il a existé un pédoncule au spécimen mais on
ne peut pas le décrire (voir statut 2).
2) La possibilité pour un objet d'être inconnu est en principe valable pour tous
les objets dans notre application ; c'est pourquoi cette information n'apparaît pas
explicitement dans le modèle descriptif. La réponse “inconnu” traduit le fait qu’il
est impossible de décrire l’objet à cause du contexte d’observation : nous
décrivons un spécimen à partir d’une photo où l’objet à observer est masqué ou
dans l’ombre, le grossissement du microscope est insuffisant pour voir les
détails de l’objet, etc..
Cependant, il pourrait avoir un sens que la réponse “inconnu” ne soit pas
autorisée pour certains objets, ce qui serait une manière de forcer la description
locale d’un objet. Par exemple pour le corps de l’éponge, il ne serait pas autorisé
de répondre “inconnu” pour cet objet car l’expert n’accepterait pas une
description limitée au pédoncule d’une éponge, alors que la plupart des
caractères majeurs sont ceux du corps (cette situation ne s’est d’ailleurs jamais
observée concrètement dans les descriptions effectuées sur les Hyalonema).
Comme pour l’absence d’un objet, la reconnaissance du fait qu’une partie est
inconnue permet d’inférer que ses sous-parties sont inconnues.
3) Un objet multiple est un objet dont plusieurs sortes peuvent voisiner dans une
même description. La multiplicité d’un objet ne doit pas être confondue avec sa
cardinalité. Elle signifie le nombre de sortes possibles d’objets du domaine
alors que la cardinalité veut dire le nombre possible de cet objet. La multiplicité
d'un objet peut s’exprimer à l'aide de deux chiffres : le premier indique la
multiplicité minimale de l'objet, le second sa multiplicité maximale.
Par exemple, si l’on voulait décrire les membres d’un humain, on pourrait dire
que la cardinalité de cet objet est comprise entre 0 et 4 : il s’agit du nombre
possible de membres (1, 2, 3 ou 4) en tenant compte des accidents. A l’opposé,
la multiplicité de [2, 2] indiquerait le nombre de sortes possibles de membres à
décrire chez cet humain : les pieds, les mains. Par contre, pour les singes, la
multiplicité pourrait être 1 et 2 selon qu’il s’agit d’un quadrumane (quatre mains)
ou d’un bipède (deux mains et deux pieds), et nous la noterions [1, 2].
Le rôle central des descriptions en sciences naturelles
117
La multiplicité d’un objet correspond à la logique d’itération (§ 4.4.6). Dans
une même description, il peut être utile de faire apparaître plusieurs instances
(“sortes”) d’un même objet sans avoir à les nommer explicitement. On a constaté
en effet que le nom d’un objet observable n’est pas toujours maîtrisé par un
observateur du domaine autre que l’expert (voir § 4.6.7). C’est pourquoi
l’utilisateur doit avoir la possibilité de décrire autant de sortes d’objet qu’il le
souhaite dans la limite de la multiplicité maximale imposée par l’expert.
Lorsque chaque type d’objet est faiblement différencié par rapport aux autres,
c'est-à-dire avec des différences minimes liées au positionnement, à la symétrie
(par exemple les pouces des mains), au nombre, on parle alors de variation
méristique [Perinet-Marquet, 1993] [Encyclopédie Quillet, 1993]. Cette
variation n’affectant pas la nature même de l’objet, la logique d’itération est la
plus appropriée pour décrire différentes sortes sans les nommer. Inversement, si
la variation correspond à une différentiation2 suffisamment forte pour être
reconnue par la grande majorité des observateurs, il est plus approprié d’utiliser
la logique de spécialisation (par exemple différencier et décrire séparément les
pieds et les mains chez le bipède).
4) Nous dirons qu'un objet est fictif quand il ne correspond pas à une
caractéristique discriminante du domaine, mais que sa vocation est d’aider à la
structuration du domaine. Dans le cas contraire, on dit qu'il est significatif
(l’objet correspond à une réalité physique intéressante pour la discrimination).
Les objets fictifs sont utiles à la structuration du domaine et à la fabrication d’un
bon guide d’observation. Prenons l'exemple des objets fictifs “macro
constituants” et “micro éléments” : il est certain que ces concepts ne sont pas
importants pour la classification des espèces de Hyalonema, ils n’ont pas de
signification classificatoire3 . Par contre, pour structurer le domaine, ces objets
sont intéressants car ils permettent de ne pas présenter au même niveau
d’observation des points de vue macro et microscopiques, ce qui correspond à
un contexte différent de description des objets.
Au statut fictif de l'objet correspond la logique des points de vue (§ 4.4.3).
4.6.5.2 Attributs
Les attributs sont des propriétés propres à l'objet, ils sont caractérisés par :
❶ un type
2
3
Morphologique et/ou fonctionnelle.
On ne doit pas discriminer deux groupes d’éponges sous prétexte que les préparations
microscopiques étaient disponibles pour l’un et pas pour l’autre.
118
Chapitre 4
Un attribut de type numérique peut être un entier naturel ou un réel et sa
valeur peut être soit simple soit un intervalle. La fourchette de valeurs que
l'utilisateur indique pour un intervalle représente l'imprécision globale attachée à
la mesure de l'attribut numérique.
Un attribut de type qualitatif peut être nominal ou classifié en référence à la
manière dont sont structurées les valeurs possibles (voir le paragraphe suivant).
Un attribut texte est une information supplémentaire sur le cas à décrire mais qui
ne devra pas être prise en compte lors du traitement des cas observés. Il s'agit
simplement d'une chaîne de caractères utile à titre documentaire pour la
maintenance de la base de cas. Par exemple, la longitude est un attribut
commentaire (129° 57’ E) de l’objet fictif contexte qui n’est pas utilisé lors de la
discrimination (figure 4.1) :
Fig. 4.1 : Exemple de l’attribut “longitude” de type “texte”
Parmi les attributs de type texte, on mentionnera l’attribut “image” qui permet de
référencer un numéro correspondant à une image numérisée illustrant tel ou tel
objet décrit d’un cas particulier.
Un attribut de type booléen est un attribut dont la valeur est soit oui, soit non :
par exemple, le pédoncule de l’éponge peut être soit torsadé, soit non torsadé
(figure 4.2) :
Fig. 4.2 : Exemple d’attribut de type “booléen”
Remarque : le point d’interrogation permet de montrer que l’adjectif torsadé peut
être transformé en un nom d’attribut à qualifier par la réponse alternative ouinon. Il se trouve que l’expert ne perçoit pour l’objet pédoncule que l’utilité de
décrire le fait qu’il peut être torsadé ou non. Nous aurions pu tout aussi bien
choisir un véritable attribut comme l’aspect du pédoncule avec un type nominal et
les valeurs “torsadé”, “non torsadé”.
Mais si plus tard, l’expert découvre qu’il existe des spécimens avec un
pédoncule d’aspect tressé, ou s’il s’intéresse à la résistance ou à la longueur du
Le rôle central des descriptions en sciences naturelles
119
pédoncule, il faudra homogénéiser la description de cet objet en introduisant
l’aspect, la résistance et la longueur comme autant d’attributs.
❷ des valeurs possibles
Il s'agit de l'ensemble parmi lequel un attribut prend sa valeur. Ces valeurs sont
définies par :
◊ une unité de mesure et un intervalle (minimum-maximum) lorsque l'attribut
est numérique,
exemple : l'attribut profondeur de l'objet contexte (indiquant la
profondeur à laquelle a été récoltée l’éponge) est compris entre 100 et
5000 m (figure 4.3) :
Fig. 4.3 : Exemple d’attribut de type “numérique”
◊ une liste (ordonnée ou pas) lorsqu'il s'agit d'un attribut nominal, des
valeurs numériques en nombre restreint pouvant aussi apparaître comme
valeurs d’un attribut nominal,
exemple : l'attribut couleur du corps de l’éponge peut prendre les valeurs
blanchâtre, grisâtre, autre (figure 4.4) :
Fig. 4.4 : Exemple d’attribut de type “nominal”
Remarque : La réponse “autre” renvoie à un commentaire en texte libre
(cf. § 4.6.5.3)
◊ par une hiérarchie de classification dans le cas d'un attribut classifié.
120
Chapitre 4
Exemple : l'attribut “forme” du corps de l’éponge peut être classifié de la
manière suivante (figure 4.5) :
Fig. 4.5 : Exemple d’attribut de type “classifié”
On aurait pu représenter cette hiérarchie sous forme d’arbre (cf. § 4.4.6).
❸ une valeur par défaut
Une valeur par défaut correspond éventuellement à la valeur la plus fréquemment
observée, elle est mentionnée par l'expert dans le modèle mais dans le
questionnaire, l'utilisateur peut lui substituer une autre valeur pour un cas
observé.
Exemple : la couleur du corps des Hyalonema est blanchâtre par défaut.
En fait, toutes les Hyalonema sont blanchâtres. Il a cependant été jugé utile de
rentrer cette information, non discriminante, pour le cas ou le domaine serait
étendu à d’autres Genres d’éponges marines, ou la couleur est connue comme un
caractère distinctif.
Le rôle central des descriptions en sciences naturelles
121
❹ un choix
Il faut préciser si l’utilisateur a droit à une seule réponse (choix unique) ou à
plusieurs (choix multiple). S’il a droit à plusieurs réponses, cela lui permet de
traduire une incertitude : l’expert reconnaît alors qu’il n’est pas toujours possible
à l’utilisateur de prendre une décision univoque entre les valeurs possibles
proposées. Ceci est typique pour les couleurs par exemple (quelle est la
différence entre brun et marron ?). Le choix multiple permet à l’utilisateur de
prendre une décision partielle (exprimer un doute entre des éléments d’un sousensemble de valeurs) :
ex : la forme du corps de l’éponge prend deux valeurs :
trompette”.
“en-cône, en-
Il s’agit bien là d’une imprécision sur la forme d’un objet particulier (la virgule
possède la sémantique du “ou”) et non pas de la traduction d’une présence
simultanée de deux valeurs. Pour que la présence simultanée soit valide, il faut
qu’elle soit dûment répertoriée dans la liste des valeurs possibles : “en-cône+entrompette” par exemple. Nous rappelons que toutes les valeurs sont
mutuellement exclusives et que toutes les combinaisons valides doivent être
introduites dans la liste des valeurs possibles. Si aucun choix ne convient à
l’utilisateur, il doit répondre “inconnu” et non pas biaiser la description en
associant des valeurs avec la sémantique du “et” (présence simultanée de deux
valeurs non ambiguës) alors qu’elles seront interprétées au niveau du traitement
comme une imprécision sur le choix d’une valeur unique.
Cette remarque n’est pas anodine. Elle oblige l’expert à concevoir un modèle
robuste pour éviter les descriptions ambiguës. Cela est d’autant plus vrai quand
la description doit porter sur un concept représentant en fait un ensemble d’objets
d’une même sorte et non pas un ensemble singleton (voir § 4.6.9). Par exemple,
dans une application sur le diagnostic des maladies de la tomate, au niveau de la
localisation de la tache sur foliole, le concept de tache représente une population
de taches homogènes (de la même sorte). Si ces taches sont positionnées à
l’extrémité de la foliole et entre les nervures, il faut représenter la valeur
“extrémité+entre-nervures” explicitement. De plus, l’expert doit prévoir que
l’attribut ne soit pas sémantiquement équivoque : par exemple, la localisation des
amphidisques dans le corps de l’éponge donnait droit à un choix multiple avec
comme valeurs possibles : éparses, périphériques, à-l’intérieur. Nous nous
sommes aperçu de l’ambiguïté du terme “éparses” qui représentait plutôt un
attribut de densité (quantitative) à la place d’une véritable localisation
topographique (qualitative). Le choix multiple était donc un biais pour donner
deux valeurs simultanément au niveau d’un seul attribut polysémique. Nous
avons remplacé le terme “éparses” par “partout” et nous avons remplacé le choix
multiple par un choix unique, ce qui fournit une interprétation bien meilleure et
sans confusion (figure 4.6) :
122
Chapitre 4
Fig. 4.6 : Exemple d’attribut non polymorphe
Selon notre approche, pour qu’un attribut soit cohérent, il faut que ses états
soient des réponses alternatives à une question [Lebbe, 1991]. La cohérence du
choix des valeurs possibles d’un attribut est un facteur essentiel de la robustesse
du système de détermination.
4.6.5.3 Autres propriétés
Ces dernières caractéristiques sont plutôt de nature ergonomique, elles
permettent de structurer le dialogue avec l’observateur dans le questionnaire pour
chaque objet et chaque attribut :
❶ genre de l’objet
La connaissance du genre de l’objet dans le modèle descriptif permet d’éviter à
l’expert de fournir explicitement la question associée à chaque objet. Ces
questions sont de nature répétitive et gagnent à être générées automatiquement et
de manière lisible à partir de la connaissance des genres de chaque objet. Il s'agit
du genre, au sens grammatical, du nom pris par un objet, à savoir : masculin
singulier, masculin pluriel, féminin singulier et féminin pluriel.
Ex : Au lieu de poser la question “Caractéristiques de l’objet corps de l’objet
Hyalonema ?” qui est indépendante du genre des deux objets cités, on pourra
construire automatiquement deux questions relatives aux caractéristiques et aux
composants de l’objet “corps” : “Caractéristiques du corps de la Hyalonema ?” et
“Composants du corps de la Hyalonema ?” relativement à la description locale du
corps et à celle de ses sous-parties.
❷ question associée à l’attribut
Il s'agit de la question posée dans le questionnaire qui permet de comprendre le
sens des mots associés (attribut et valeurs possibles) et d’y répondre
précisemment par le choix d’une valeur appropriée. L’écriture de cette question
n’est pas automatisable du fait justement qu’elle doit être précise :
Par exemple, pour la localisation des amphidisques de l'éponge, la question
pourrait être : "Où ces amphidisques sont-ils localisés ?"
Le rôle central des descriptions en sciences naturelles
123
❸ Commentaires et remarques
Il peut néanmoins se trouver que dans le questionnaire, au moment ou
l’utilisateur désire décrire un objet, il ne comprenne pas le sens de la question ou
encore le sens du vocabulaire utilisé par les attributs et les valeurs. Il peut se
trouver aussi en face d’un spécimen à décrire dont aucun des états proposés pour
l’un de ses objets ne correspond à son observation. Au lieu de répondre
“inconnu”, il pourrait manifester son incompréhension en rédigeant un texte libre
dont l’expert pourra par la suite tenir compte. Cette faculté est importante pour
instaurer un dialogue entre l’expert et les utilisateurs de son modèle descriptif car
cela peut lui permettre une rentrée d’informations pertinentes auxquelles il n’avait
pas pensé plus tôt. Par exemple, la valeur “autre” de la figure 4.4 pourrait
renvoyer à un commentaire et l’observateur y indiquerait la couleur du spécimen
qu’il décrit.
4.6.6 Niveau de précision d’un objet
4.6.6.1 Spécialisation
Lorsque l'on veut faire intervenir de la connaissance supplémentaire sur les
objets, les attributs et sur les valeurs sous forme d'une plus grande précision, on
introduit le lien de spécialisation. Cela permet de construire des regroupements
utiles afin de faire hériter les propriétés des objets les plus généraux vers les
objets les plus particuliers : un objet se spécialise en un “sous objet” et toutes les
caractéristiques communes aux deux objets sont “remontées” au niveau de l’objet
le plus général. On aboutit ainsi à former des taxonomies d’objets selon un
certain degré de généralité (ou de précision) (figure 4.7) :
Fig. 4.7 : Exemple de spécialisations d’un objet
Pratiquement, les objets les plus bas dans la taxonomie héritent des propriétés
(attributs et valeurs possibles) des objets situés plus hauts. Il en est de même des
composants de l'objet plus général. Dans le cadre de cette logique de
spécialisation (§ 4.4.4), il s’agit de “masquer” les attributs situés plus haut dans
la hiérarchie en restreignant le domaine des valeurs possibles de chacun de ces
attributs.
124
Chapitre 4
Dans l’exemple ci-dessus, les macramphidisques, les mésamphidisques et les
micramphidisques sont des spécialisations d’amphidisques, c'est-à-dire que
l’intervalle des tailles possibles pour chaque spécialisation est théoriquement
restreint par son type : macro- (500 à 1000 mus4 ), méso- (100 à 500 mus) et
micro- (10 à 100 mus). Nous verrons que les spécialisations imposent des
contraintes sur la description, ce qui peut engendrer des descriptions erronées
(cf. § 4.6.7).
4.6.6.2 Particularisation
Au contraire, dans la logique de particularisation (§ 4.4.5), on élargit le domaine
en définissant de nouveaux attributs et de nouvelles valeurs particulières définies
plus bas et qui n’apparaissaient pas aux niveaux supérieurs. Cette logique est
adaptée au traitement des exceptions.
Comme exemple de particularisation, prenons la description de l'objet
“Mammifère” dans une application sur la reconnaissance de différents types de
Mammifères. L’objet “Ours” est une spécialisation de l'objet “Mammifère” alors
que l’objet “Ornithorynque” est une particularisation de l’objet “Mammifère”. En
effet, en plus des propriétés qu'il aura héritées de l'objet “Mammifère”, à savoir
de posséder des mamelles, des poils, d’avoir quatre membres, une queue...,
l'objet “Ornithorynque” aura ses attributs particuliers (avoir un bec, des pieds
palmés, pondre des œufs, etc.). Ces attributs ne sont pas introduits plus haut
dans la hiérarchie au niveau de l’objet “Mammifère” car ils fausseraient la juste
vision que l’on peut avoir des Mammifères en général, qui n’ont ni bec, ni pieds
palmés, etc..
Les processus de spécialisation et de particularisation des objets sont des
caractéristiques des langages à objets qui permettent de tenir compte du contexte
d’observation. Ainsi s’assure-t’on que les caractéristiques examinées pour un
contexte donné sont toujours pertinentes ; or la pertinence est une composante
importante de la robustesse du modèle descriptif.
4
Micromètres.
125
Le rôle central des descriptions en sciences naturelles
4.6.7 Possibilité de multi-instanciation de chaque objet
Dans une même description, il peut être utile de faire apparaître plusieurs
instances (“sortes”) de la même partie sans avoir à les nommer explicitement. Ce
constat provient du fait que le nom d'un objet observable n'est pas toujours
maîtrisé par un observateur autre que l'expert. Le vocabulaire qu'il utilise pour le
désigner est sujet à un certain arbitraire dont l'expert a conscience : il ne souhaite
pas contraindre l'observateur avec son propre vocabulaire spécialisé (“charabia”
scientifique). L'exemple pour comprendre cette idée est illustré sur la figure
4.8 suivante :
...
: lien de sous-partie
macramphidisques
: lien de spécialisation
...
...
...
micro-éléments
amphidisques
localisation
taille
densité
...
mesamphidisques
...
...
...
micramphidisques
...
...
...
Fig. 4.8 : Exemple de hiérarchie d'objets non instanciés
Ici, les termes de macramphidisques, mésamphidisques et micramphidisques
sont des dénominations de spécialiste qui désignent des sortes d'amphidisques
dont le type dépend principalement de la taille. Or, il s'agit d'une spécialisation
qui n'a pas de sens dans certains contextes d'observation. Il suffit d'imaginer
deux types d'éponges à décrire dont le premier est de taille cinq fois plus grande
que le second. Premièrement, un utilisateur décrivant l'échantillon de grosse
taille pourrait très bien nommer macramphidisque un amphidisque qui serait en
fait un micramphidisque pour l'expert. Ce problème est bien connu des
systématiciens sous le terme du respect de l’homologie entre objets. De plus,
lors de l'induction, le système serait incapable de distinguer les différents types
d'amphidisque selon leur taille, mais procèderait à l'unification en acceptant le
caractère isomorphe des objets dont on n’est pourtant pas certain de la
correspondance structurelle. La subjectivité du nom de ces spécialisations ou le
fait que ce nom ne soit pas maîtrisé par l'utilisateur final du système nous oblige
à définir différentes sortes d'un même objet “amphidisque” (figure 4.9). Le non
spécialiste peut ainsi décrire autant de sortes d'amphidisques qu'il le souhaite, de
manière plus souple. Le nombre maximal d'instances ou de sortes possible pour
un objet est néanmoins fixé préalablement par l'expert dans le modèle descriptif,
il s'agit de la multiplicité de cet objet (§ 4.6.4.1). On sera donc amené à décrire
plusieurs instances en nombre limité d'une même partie au sein d'une description
126
Chapitre 4
d'éponge marine, chaque “sorte” suivant un schéma analogue de description et
ne se distinguant que par des différences méristiques (§ 4.6.5.1.3) :
: lien de sous-partie
: lien d'instanciation
amphidisques(1)
amphidisques(2)
micro-éléments
amphidisques
localisation
taille
densité
type *
amphidisques(3)
amphidisques(4)
*
"type" devient une caractéristique facultative de l''objet amphidisques prenant pour valeurs
possibles macramphidisque, mesamphidisque et micramphidisque (s'il est connu)
Fig. 4.9 : Exemple de hiérarchie d'objets instanciés
Remarque : il pourra être intéressant de comparer a posteriori les réponses des
utilisateurs sur les tailles des amphidisques et leur type avec la catégorisation
effectuée par l'expert a priori. Une classification locale au niveau de l'objet
pourrait de même permettre de connaître l’acception de termes selon la majorité
des utilisateurs biologistes.
La multi-instanciation d'objets correspond à la logique d'itération (§ 4.4.6).
4.6.8 Définition des dépendances inter / intra objets
Les différentes parties peuvent être plus ou moins dépendantes les unes des
autres :
1 - On a vu précédemment que l'absence d'une partie ou l'ignorance sur son
existence implique l'absence ou l'ignorance sur l'existence de ses sousparties,
2 - Certaines valeurs d'une caractéristique d'une partie peuvent aussi rendre
inobservable une ou plusieurs de ses sous-parties,
3 - Certaines valeurs d'une caractéristique d'une partie peuvent conditionner
la ou les autres valeurs d'une autre caractéristique d'une autre partie (ou
de la même),
4 - Certaines valeurs d'une caractéristique d'une partie peuvent masquer
l'accès à une ou plusieurs caractéristiques de cette partie ou de ses sousparties.
Cela va se traduire par l'écriture de règles ou contraintes déclenchées localement
sur certaines parties et qui vont agir sur l'existence d'autres parties ou de
Le rôle central des descriptions en sciences naturelles
127
certaines de ses caractéristiques ou bien encore sur la mise à jour de certaines
valeurs attachées aux caractéristiques de ces parties. Ces règles expriment les
conditions contextuelles (§ 4.4.7) d’accès aux objets et attributs pour
pouvoir les décrire et permettent le maintien de la cohérence dans le questionnaire
ou guide d’observation.
4.6.9 Niveau de généralité d’un objet
Nous avons déjà mentionné au chapitre 3 qu’un objet biologique prenait deux
sens différents selon le point de vue d’observation de l’utilisateur : soit il s’agit
d’un individu d’une population, soit c’est un composant d’un individu (voir
l’exemple des Mammifères au § 3.6).
Parmi les objets, on peut distinguer aussi ceux dits “observables” et ceux dits
“observés”. Les premiers correspondent à l'étape d'acquisition du modèle
descriptif alors que les seconds concernent la phase de description. Chaque
modèle descriptif est constitué d'objets observables alors que chaque description
est constituée d'objets observés.
Dans le chapitre 5, nous allons formaliser les descriptions d’objets observés
pour les mathématiciens. Traditionnellement, les objets observés à analyser
forment une ligne dans un tableau de données classique. Cette disposition ne
permet pas facilement de faire la distinction entre l'objet au sens de l'individu et
l'objet au sens du composant. Du fait de l'approche par structuration du domaine
que nous avons conçue, chaque objet observé forme un tableau avec ses
propriétés propres. L'individu est alors décrit par une suite de tableaux reliés
entre eux par la relation de composition : ces objets correspondent aux
descriptions locales et sont appelés objets composites.
Pour chaque description locale d’objet, on retrouve la liste des attributs propres
ainsi que les valeurs affectées par l’utilisateur du questionnaire. La valeur vient
s’inscrire dans la case du tableau de l’objet à l’intersection entre la colonne de
l’attribut et la ligne de l’individu étudié. La valeur doit véhiculer une information
pertinente mais non nécessairement discriminante. C’est pourquoi toute réponse
inconnue pour un attribut donné dans le questionnaire n’est pas répertoriée dans
la description de l’individu : la réponse “inconnu” n’est pas une information en
biologie !5
5
Dans d’autres domaines, elle pourrait avoir un sens. Par exemple, et par boutade, le fait de répondre
“inconnu” à la question “Quel est votre âge ?” n'est elle pas réputée caractéristique de la
population féminine ?
128
Chapitre 4
Il est encore important de préciser pour chaque objet sur lequel porte une
description s’il est :
1) unique et concret,
2) synthétique, résumant de manière plus ou moins statistique un ensemble
d’objets individuels.
4.6.9.1 Représentant unique
Dans le premier cas, nous avons affaire à une description d’un objet particulier
avec les conséquences suivantes :
6
◊
il s’agit d’une véritable description, l’objet ayant comme valeur d’attribut
un seul état observé de l’espace d’observation qui résume toute la
connaissance,
◊
l’extension en retour de cette description est l’objet lui-même, la
description étant suffisamment exhaustive et précise pour ne représenter
que l’objet lui-même (ou ses clones),
◊
chaque variable de l’objet a une valeur nécessairement unique mais plus
ou moins précise 6 . Si la valeur est précise, cela n’empêche pas qu’elle
puisse être erronée, c'est-à-dire que l’observateur puisse attribuer un
mauvais état parmi ceux proposés,
◊
L’imprécision se traduit par une distribution de possibilité au niveau
des valeurs prises par les objets [Haton et al., 1991]. Ces possibilités
sont des hypothèses (un ensemble d’états) émises par l’observateur qui
traduisent son opinion pour “encadrer” le véritable état qu’il n’est pas en
mesure de donner. A chaque hypothèse peut être associée une
vraisemblance (sous forme de degré de croyance par exemple) pour
renforcer le poids de certaines d’entre elles [Dubois & Prade, 1987],
◊
L’objet peut aussi bien être l’individu lui-même qu’un composant de cet
individu. Telle valeur de la taille du spécimen d’éponge ainsi que celle de
la longueur du pédoncule de l’éponge sont deux descriptions d’objets
uniques,
Si la valeur n’est pas unique (représentée par un intervalle numérique ou bien par un choix multiple),
c’est parce que l’observateur doute ou bien n’a pas la possibilité de prendre une décision univoque
entre les valeurs possibles proposées. L’incertitude sur la valeur peut être due soit à l’utilisation
d’appareils de mesure pour les attributs numériques, soit laissée à l’appréciation subjective de
l’observateur. Cette imprécision est néanmoins une décision partielle : il faut en tenir compte
puisqu’elle exclut les autres états possibles. C’est une information comparée à l’indécision totale
de la réponse «inconnu» qui exprime la disjonction de toutes les valeurs possibles ou encore une
autre valeur non représentée dans l’espace d’observation (non exhaustivité du modèle descriptif).
Le rôle central des descriptions en sciences naturelles
129
4.6.9.2 Représentant multiple
Dans le second cas, nous sommes en présence d’une “description” de classe
d’objets avec les autres conséquences suivantes :
◊
il s’agit d’un regroupement de descriptions d’objets d’une même sorte qui
correspond en fait à une définition (§ 3.2.1.2), dont les valeurs d’attribut
traduisent une distribution d’états (la variabilité intra-classe),
◊
l’extension en retour est l’ensemble des objets de la sorte couverts par la
“description” de la classe : elle est entachée d’une certaine généralisation,
◊
Chaque valeur prise par les attributs de la classe est fondamentalement
multiple7 (sauf pour une classe de clones) et exprimée par un intervalle de
variation pour les attributs numériques (ou par une disjonction de valeurs
pour les attributs nominaux),
◊
La logique des probabilités permet d’apprécier quantitativement la
distribution de fréquence des objets au sein de la classe, ce qui demande
l’observation d’échantillons représentatifs de la classe ne variant pas dans
l’espace et dans le temps, ou bien une estimation subjective de l’expert
plus facile à mettre en œuvre,
◊
L’objet peut être aussi bien une classe d’individus qu’une classe de
composants de cet individu. Dans le premier cas, il s’agit par exemple de
la description synthétique du sous-genre Oonema (appartenant à
Hyalonema) regroupant une population de spécimens. Dans le second
cas, c’est la description de l’ensemble des amphidisques du corps d’un
unique représentant de ce Sous-Genre.
4.6.10 L’imprécision d’observation
On trouve de l’imprécision dans les observations aux deux niveaux de
l’acquisition des connaissances en amont de la phase de traitement des
descriptions : le premier niveau concerne l’expert et l’acquisition de l’observable,
le second niveau concerne le descripteur et l’acquisition de l’observé.
7
Les réponses multiples expriment ici une conjonction d’états simultanés : les objets sont distribués
simultanément sur un sous ensemble de l’espace d’observation pour chaque attribut.
130
Chapitre 4
4.6.10.1 Au niveau de l’observable
Nous avons déjà eu l’occasion de montrer l’attention qu’il faut apporter au choix
des valeurs en liaison avec la sémantique de l’attribut (§ 4.6.5.2.4 sur le choix
unique ou multiple d’un attribut).
De plus, l’expert doit prendre garde d’associer les attributs au niveau des bons
objets. Considérons les deux descriptions d’objets suivantes :
- couleur de la robe du zèbre = blanc ∧ noir
- couleur d’un feu de signalisation routière = orange ∧ rouge
Les associations (objet = robe, attribut = couleur, valeurs = blanc, noir) et
(objet = feu, attribut = couleur, valeurs = orange, rouge) sont inappropriées car
elles permettent d’obtenir des conjonctions de valeurs qui indiquent la présence
simultanée de deux états, ce qui est contraire au principe d’états mutuellement
exclusifs. En fait, il ne peut pas y avoir d’ambiguïté sur la couleur si l’on fait
porter l’attribut sur l’objet adéquat, à savoir les rayures (ou zèbrures) du zèbre et
les spots du feu de signalisation.
On s’aperçoit alors qu’il existe deux sortes de rayures qui ont des couleurs bien
définies, que ces rayures ne sont pas spécialisables autrement que par les noms
de “rayures blanches” et “rayures noires”, alors que pour les feux de
signalisation routière, il existe trois sortes bien définies à la fois par la couleur et
par la position (en-haut, au-milieu, en-bas).
Le modèle descriptif reflète un état de connaissance à un moment donné, il est
censé alors être complet, ce qui permet de le définir comme une monographie
de l’observable d’un domaine. La complétude est une qualité attendue du
modèle alors que son imprécision est un défaut à éviter. Si le modèle est complet
par rapport à un état de connaissances, cela n’empêche pas les connaissances sur
les spécimens d’évoluer sous l’effet des nouvelles techniques d’observation. Ces
techniques peuvent faire apparaître des erreurs de perception sur les descriptions
antérieures qui ont été jugées pourtant précises à l’époque.
Même si l’on a pu constater des périodes de stabilité dans l’histoire des
descriptions, les apports de nouvelles techniques sont aujourd’hui
considérables : par exemple, l’apparition du microscope électronique à balayage
a remis en cause la perception des observateurs utilisant le microscope optique,
les techniques génétiques apportent un point de vue nouveau sur les spécimens.
Le renouvellement de plus en plus accéléré des techniques met en lumière la
nécessité de mise à jour du modèle descriptif et des descriptions. Cela n’ôte rien
à l’obligation d’obtenir un modèle de l’observable complet et précis, à l’origine
de descriptions robustes.
Le rôle central des descriptions en sciences naturelles
131
4.6.10.2 Au niveau de l’observé
Une fois trouvée la manière de concevoir un modèle de l’observable robuste, il
reste néanmoins la difficulté d’interpréter les observations elles-mêmes.
L’imprécision est là aussi la source de faiblesse des descriptions. Elle dépend de
plusieurs facteurs :
1)
2)
3)
4)
5)
la nature des objets observés (représentant unique ou multiple cf. § 4.6.9),
la qualité du matériel observé (fraicheur de l’échantillon, conservation),
la qualité du mesurage des appareils,
la qualité de perception de l’observateur,
la qualité des outils de description (modèle descriptif, questionnaire),
1) En décrivant un objet qui représente en fait un ensemble, on introduit une
imprécision due à la variation à l’intérieur de cette classe.
Ce que l’on décrit est en fait l’objet “moyen” sélectionné parmi tous les objets
observables de l’ensemble. Il s’agit par exemple du plant de tomate (individu)
appartenant à la culture et dont les symptômes sont représentatifs de la maladie
ou bien encore d’un spicule d’éponge (un composant) qui est un objet modal de
la classe des spicules observée sur lamelle au microscope. Il est de toute manière
évident que l’on ne va pas décrire toute la population matérielle de l’ensemble.
Ce que l’on cherche à décrire, c’est un représentant prototypique d’une classe
jugée homogène (à l’intérieur de laquelle la variation n’est pas importante). Ce
représentant est choisi pour faire une pseudo-description qui va constituer en fait
une définition de sa classe (§ 3.2.1.2). Le représentant prototypique permet de
définir les propriétés les plus fréquemment rencontrées chez les membres de la
classe : c’est un objet représentatif de la classe. L’observateur décrit ainsi ce
représentant. Il conserve néanmoins la liberté plus ou moins consciente d’élargir
l’espace d’observation de certains caractères pour couvrir la description d’autres
objets.
Inversement, lorsqu’un objet est un représentant unique d’une classe (par
exemple un seul représentant d’une maladie dans la culture ou encore le collet
d’un plant de tomate), le problème du choix de l’objet ne se pose pas, il
s’impose.
La situation au Muséum National d’Histoire Naturelle est différente : objets et
individus sont bien différenciés : les objets ne sont pas des individus, ce sont les
composants d’un individu. Face aux collections de spécimens et en fonction de
l’objectif de classification de ces individus, deux types de descriptions sont
préconisées :
◊
Pour chaque objet, s’il y a beaucoup de représentants qui peuvent être
décrits localement, on choisit le représentant prototypique de l’ensemble,
que l’on définit (ce n’est pas une véritable description). Le biologiste aura
132
Chapitre 4
donc tendance à synthétiser les descriptions d’objets, ce qui est normal
compte tenu de l’objectif de classification des individus (et non pas des
objets).
◊
Pour les individus à classifier au contraire, le biologiste va multiplier les
descriptions de spécimens qu’il juge appartenir à la même classe afin
d’éviter les synthèses de descriptions : chaque description de spécimen
sera affectée de l’étiquette du nom de la classe. Regrouper ces spécimens
en une seule description conduirait au risque de décrire sous un même
nom d’Espèce des spécimens appartenant en fait à des classes différentes.
Ce regroupement généralise et fait perdre de l’information. Par exemple,
si on décrit un spécimen dont la taille des spicules est [5, 12] mus et un
autre spécimen dont la taille des spicules est [10, 15] mus et que dans un
premier temps, on considère que les deux spécimens appartiennent à la
même classe, on serait amenés à regrouper deux descriptions en une seule
avec la taille des spicules égale à [5, 15] mus. Ce faisant, si on découvre
plus tard que les deux spécimens appartiennent en fait à des classes
différentes, soit on devra refaire des descriptions conformes aux
spécimens (il faut donc bien conserver les échantillons) ou alors si les
spécimens ne sont plus disponibles, on aura perdu de l’information (car
on a généralisé en regroupant deux descriptions).
2) La qualité de l’échantillon est un facteur important pour être en mesure de
faire de bonnes descriptions. L’idéal est de pouvoir récupérer des
renseignements sur le spécimen vivant dans son milieu d’origine, puis de le
décrire en laboratoire avec les techniques appropriées. On peut préserver ainsi
certaines nuances de description (les couleurs par exemple) ainsi que des
informations complémentaires utiles pour pouvoir expliquer certaines
observations (analyses de sol, traitements préventifs pouvant influencer
l’extériorisation des symptômes en pathologie végétale). Les êtres vivants
évoluent dans le temps ce qui provoque le plus souvent des phénomènes de
dégradation préjudiciables pour leur description. C’est ainsi le cas des
échantillons de plantes dont la fraîcheur n’est pas conservée très longtemps ou
bien encore des plantes qui ne sont pas prélevées en début d’attaque et qui
manifestent des symptômes secondaires (de faiblesse, saprophytes) masquant la
cause primaire de la maladie [Conruyt & Piaton, 1987], [Blancard, 1988].
Ensuite, le spécimen devra être identifié, puis conservé dans une collection de
manière à pouvoir s’y référer dans l’avenir. Souvent, l’échantillon est incomplet
ou n’existe qu’en morceaux du fait des expérimentations qu’il a subies. Des
normes de conservation dans les muséums sont établies pour bien l’entretenir et
perdre le moins d’information possible. Néanmoins, pour les descriptions de
maladies, les échantillons ne peuvent pas être gardés car les symptômes se
dégradent avec le temps et sont plutôt fugitifs.
Le rôle central des descriptions en sciences naturelles
133
Enfin, pour les descriptions ayant pour origine d’autres descriptions dans des
livres, on doit se contenter de ce qui existe :
◊
◊
◊
des descriptions de spécimens,
des “descriptions” synthétiques de plusieurs spécimens,
des descriptions incomplètes, etc..
L’expert est à ce moment obligé de réinterpréter des descriptions plus ou moins
anciennes. S’il n’a plus accès au spécimen d’origine alors que des moyens
nouveaux d’investigation sont possibles (par exemple une expérimentation sur le
génome qui ne pouvait être prise en compte lors de la première description), la
description s’arrête là. Dans notre application sur les Hyalonema, l’expert a
surtout travaillé à partir de descriptions et de dessins dans des livres anciens, les
spécimens n’étant plus disponibles. Toutefois, les parties du spécimen qui ont
servi à établir les classifications sont d’ordre microscopique : ce sont les spicules
du squelette de ces éponges siliceuses. L’expert M. Levi dispose encore de
certaines de ces préparations.
3) La qualité des appareils de mesure joue sur la précision de chaque
description. Par exemple, en pathologie végétale, si on demande à l’agriculteur
de faire une coupe transversale tout le long de la tige d’un plant de tomate pour
regarder la couleur des vaisseaux, et qu’il ne dispose pas de couteau, soit il ne
répond pas à la question, soit il fait une réponse approximative après avoir
ouvert manuellement avec l’ongle la tige à différents niveaux. Ce bruit dans la
phase de description n’est pas toujours contrôlé à l’arrivée (au moment du
traitement) : il se peut que l’observation comme quoi les vaisseaux sont bruns est
vérifiée au bas de la tige mais pas en haut (il ne pouvait pas le faire sans
couteau).
En systématique, le problème est différent : les biologistes travaillent dans un
environnement propice aux descriptions précises avec des appareils plus ou
moins sophistiqués. Par rapport à l’objectif de classification, les descriptions
effectuées à une date donnée sont supposées complètes, c'est-à-dire avec le
niveau de précision suffisant pour l’objectif fixé. Ce niveau de précision des
descriptions dépend néanmoins de l’évolution des appareils de mesure. Ces
derniers permettent d’affiner certains détails qui peuvent se révéler en
contradiction avec les observations précédentes sur un autre matériel de mesure.
Par exemple, en observant la protoconque (coquille embryonnaire) d’un
mollusque, le biologiste aperçoit des ponctuations au microscope optique lui
faisant penser à des trous d’épingle et il décrit la protoconque comme ponctuée.
S’il observe cette coquille au microscope électronique à balayage, ces “trous”
apparaissent alors comme des bosses et la description se transforme alors en
protoconque pustulée. La description de la protoconque est devenue plus juste en
utilisant un matériel de mesure plus précis : l’aspect concave des ponctuations
134
Chapitre 4
(comme des trous) a été remplacé par un aspect convexe dû à des pustules sur la
coquille.
4) La qualité des observations est un leitmotiv dans la bouche des experts pour
pouvoir effectuer des déterminations correctes. Cela dépend de la perception du
descripteur. Par exemple en pathologie végétale, des descripteurs naïfs par
rapport à l’observation auront tendance à décrire toute anomalie apparente
sur la plante comme un symptôme potentiel d’une maladie. Ces descripteurs
n’ont pas la capacité de sélectionner les symptômes pertinents par rapport aux
maladies répertoriées par l’expert : ainsi en est-il des taches de cuivre bleutées
qui résultent de l’application d’un traitement à la bouillie bordelaise contre
l’oïdium ou encore du jaunissement dû à la sénescence des feuilles du bas ou à
l'ombrage du feuillage : ce sont des descriptions de faux symptômes !
Inversement, sur une même plante, l'expert a tendance à ne voir que les
symptômes caractéristiques des maladies les plus importantes et à laisser de côté
tous les symptômes annexes sans les désigner : il fait un tri des symptômes de
manière inconsciente.
Cet exemple pris en pathologie végétale montre les écarts importants qui existent
dans les interprétations de l’observation entre différents utilisateurs. La naïveté
des observations de l’utilisateur est un critère à prendre en compte pour évaluer
la robustesse des systèmes de détermination. Dans la mesure où l’on souhaite
que le système soit utilisé dans les conditions de la réalité, c’est à l’expert et au
cogniticien de s’adapter aux utilisateurs et non l’inverse.
5) Cette adaptation passe par la confection d’un modèle descriptif et d’un
questionnaire permettant une aide à l’observation. Le modèle descriptif constitue
la trame du questionnaire calqué sur son architecture afin de fabriquer un
véritable guide d’observation comme nous le verrons au chapitre 6.
V
FORMALISATION DE LA NOTION
D’OBJET EN BIOLOGIE
Après avoir mis en lumière l’importance des descriptions de spécimens, nous
proposons maintenant une formalisation mathématique des objets biologiques1 à
analyser en suivant le cheminement d'élaboration du modèle descriptif. Nous ne
formalisons pas ici les traitements à effectuer sur ces objets (induction et
raisonnement par cas) qui seront étudiés au chapitre 7.
Nous présentons d'abord les assertions composites permettant le processus de
décomposition de la description de l'entité du domaine. Puis les hordes
composites sont utilisées pour définir les objets multi-instanciés. La description
de l'individu est enfin exprimée à l'aide d'un objet de synthèse comprenant des
objets “assertion” et “horde” composites décrivant ses différentes parties. Des
propriétés sont ajoutées à l'ensemble de ces objets par des règles sous forme de
contraintes. De plus, une connaissance supplémentaire peut être introduite sous
la forme d'un ordre hiérarchique sur ces objets. Ce formalisme reprend celui des
objets symboliques booléens introduits par [Diday, 1987] et est adapté dans le
cadre de l'apprentissage d'objets biologiques sur des individus complexes.
5.1 Les assertions composites
5.1.1 Rappel sur les assertions (symboliques)
Soient Ω = {w1 ,...,wn }, l'ensemble des entités concrètes ou individus observés,
Π 2 Ω, l'ensemble de tous les individus observables ou abstraits,
Y = {y1 ,...,yp }, l'ensemble des variables observées du domaine,
Λ 2 Y, l'ensemble de toutes les variables observables.
Pour chaque variable observée yi ∈ Y, nous pouvons associer un espace
d’observation Oi qui est l'ensemble des valeurs possibles de yi (ce sont des
valeurs observables abstraites). On définit alors yi comme une application de Π
dans Oi avec Oi ∈ {O1 ,...,Op } ∪ {?}.
1
Comme nous l’avons déjà dit au § 3.6, l’objet biologique peut prendre la signification d’un
individu ou d’un composant d’un individu selon le point de vue.
136
Chapitre 5
Enfin, soit Vi ⊂ Oi , l'ensemble des valeurs observées de yi (valeurs concrètes)
avec Vi ∈ {V1 ,...,Vq}.
L'assertion symbolique as = ∧ i [yi = Vi] exprime que “La variable yi prend des
valeurs dans Vi”. Elle est définie par l'application as :
as : Ω → {vrai, faux} / as(w) = vrai ssi ∀ i = 1,...,p on a yi (w) ∈ Vi
L'extension de as notée | as | Ω est l'ensemble des individus w ∈ Ω pour
lesquels as(w) = vrai.
Exemple :
Soient Ω = {w1 ,...,wn }, l'ensemble des descriptions observées de têtes de
mammifères,
Λ, l'ensemble de toutes les variables observables sur une tête de
mammifère,
Soient Y = {y1 = [taille(tête)], y2 = [longueur(nez)], y3 = [couleur(yeux)]},
l’ensemble des variables observées,
O1 l'ensemble des tailles observables en cm pour la tête,
O2 l'ensemble des longueurs possibles en cm pour le nez,
O3 l'ensemble des couleurs possibles pour les yeux.
En considérant l'assertion as suivante :
[[taille(tête)] = [100 , 200] = V1 ] ∧
[[longueur(nez)] = [60 , 200] = V2 ] ∧
[[couleur(yeux)] = {brun, marron} = V3 ],
l'extension de as notée | as | Ω est l'ensemble des descriptions des têtes de
mammifères qui vérifient l'assertion :
| as | Ω = {w ∈ Ω / as(w) = vrai ⇔ y1 (w) ∈ V1 ∧ y2 (w) ∈ V2 ∧ y3 (w) ∈ V3 }
Remarque : Dans cette définition de l'assertion, 'as' est à la fois la notation
(une conjonction d'évènements) et une fonction indiquant la méthode de calcul
de son extension. Pour nos applications biologiques, nous souhaitons bien
séparer les deux afin de représenter d'une part les connaissances de l'expert
c'est-à-dire les descriptions d'objets (l'ensemble de départ de la fonction) et
d'autre part les traitements à effectuer sur ces objets (induction et raisonnement
par cas) qui font l’objet du chapitre 7.
137
Formalisation de la notion d'objet en biologie
5.1.2 Proposition : les objets assertions
Un objet assertion a = ∧ i [yi = Vi ] est défini par l'application a :
a : Ω → {vrai, faux} / a(w) = vrai ssi ∀ i = 1,...,p on a yi (w) ∈ Oi ,
c'est-à-dire que les objets ont des valeurs observées comprises dans le domaine
de définition prédéfini des valeurs observables du modèle descriptif.
Le calcul de l'extension de a n'a pas grand intérêt pour nous puisqu'il est
l'ensemble des individus (les clônes) qui ont la même description a.
Dans cette définition des objets assertions, l'utilisateur a la possibilité d'indiquer
qu'il ne connaît pas la valeur de yi (w). A cet instant, la réponse “?” signifie
l'indécision totale, c'est-à-dire la disjonction de toutes les valeurs possibles de la
variable yi .
On peut aussi définir un objet assertion a = ∧ i
[Xi
= Vi ] comme une
application
a : Ω → {vrai, faux} / a(x) = vrai ssi ∀ i = 1,...,p on a x i ∈ Vi , avec la
propriété suivante dans le cas ou Y est une bijection : as = a ο y
preuve : Y est bijective : ∀ xi ∈ Oi , ∃ w ∈ Ω / yi (w) = x i
as (w) = ∧ i (yi (w) ∈ Vi ) = ∧ i (xi ∈ Vi ) = a (x) = a (y (w)) = (a ο y) (w)
5.1.3 Définition des assertions composites
➢ Soit l'espace des parties d'individus observables Π = Π1 x Π2 x ... x Πm'
Πi est l'ensemble de toutes les parties élémentaires observables d'une entité w.
Soit l'espace de parties observées d'individus : Ω = Ω1 x Ω 2 x ... x Ω m
m étant le nombre de parties de w, on définit Ω i = {pi }, l'ensemble singleton
d'une partie élémentaire observée de l'entité w.
On a Ω i ⊂ Πi .
Exemple : Ω = {têtes}, Ω 1 = {nez}, Ω 2 = {yeux}
➢ Soit l'espace des variables observables du domaine Λ = Λ1 x Λ 2 x ... x
Λ p'
p' étant le nombre d'ensembles de variables des parties de w, Λ i est l'ensemble
de toutes les variables observables d'une partie pi de Ω i .
Soit l'espace des variables observées du domaine Y = Y1 x Y2 x ... x Yp
138
Chapitre 5
Sur chaque partie de l'entité, on peut définir l'ensemble des variables observées
Yi = {yi1 ,..,yij ,..,yiq }, q étant le nombre de variables d'une partie de w,
yij représentant la jème variable de la partie i de w.
On a Yi ⊂ Λi .
i
i
i
Soit Qi = {q1 ,..,qj ,..,qq }, l'ensemble des qualités ou caractères observés d'une
partie pi de Ω i.
Soit Ni = {ni }, l'ensemble singleton comportant le nom de la partie pi de Ω i ,
on a Yi = Qi ο Ni .
Exemple :
Q1 = {taille}, N1 = {tête}, Y1 = {[taille(tête)]}
Q2 = {couleur}, N2 = {yeux}, Y 2 = {[couleur(yeux)]}
➢ Soit l'espace d'observation du domaine O = O1 x O2 x ... x On
n est le nombre d'ensembles d'observation des parties de w, Oi est l'ensemble
d'observation d'une partie pi de Ω i .
Yi est une fonction de Πi → Oi .
On peut définir Oij ∈ {Oi1 ,...,Oir } l'ensemble d'observation où la variable yij
prend ses valeurs, r étant le nombre d'ensembles de valeurs observables d'une
partie pi de Ω i
Définition :
Soit A l'ensemble des assertions du domaine, une assertion composite ai ∈ A est
une fonction Ω i → {vrai, faux} / ai (w) = vrai ssi
∀ i = 1,...,p , ∀ j = 1,...,q on a yij (w) ∈ Oij
avec la propriété suivante :
ai est définie par la conjonction d'évènements [yij = V ij ] dont une valeur au
moins de yij est une assertion composite aj définie sur Ω j :
i
y j est une fonction de
ai =
i
i
i
[y j = Vj ] =
i
i
[[q j (ni ) ] =
i
i
Vj
Oj
] avec
v
i
Vj
/ v
Aj
On peut illustrer la définition précédente par le schéma de la figure 5.1 ou h et i
sont des parties de w et sont représentées par des descriptions sous forme de
vecteurs des variables yhj et yij :
139
Formalisation de la notion d'objet en biologie
h
y
h
1
h
V1
i
h
j
y
h
l
y
h
j
V
h
l
Vr
y
V
h
q
y
i
1
h
i
V1
i
j
y
i
l
y
i
j
V
i
l
Vr
y
V
i
q
i
Fig. 5.1 : Illustration d’une assertion composite ah
5.1.4 Exemples
Une assertion composite “mammifère” peut s'écrire :
ax = [[sexe(mammifère)] = Vx1 ]] ∧ [[age(mammifère)] = Vx2 ] ∧
[[poids(mammifère)] = Vx3 ] ∧
[[subparts(mammifère)] = {tête, tronc, membres}]
Les valeurs de la variable yx4 = [subparts(mammifère)] sont aussi des assertions
composites :
ay = tête = [[forme(tête)] = Vy1 ]] ∧ [[taille(tête)] = Vy2 ] ∧
[[subparts(tête)] = {oreilles, yeux, bouche, nez}]
De manière analogue pour notre application sur les éponges marines, on définit
une assertion composite “corps” de l'éponge :
a6 = [[forme(corps)] = V61 ]] ∧ [[taille(corps)] = V62 ] ∧
[[consistance(corps)] = V63 ] ∧ [[couleur(corps)] = V64 ] ∧
[[subparts(corps)] = {macro-constituants, micro-elements}]
Les valeurs de la variable y65
composites :
= [subparts(corps)] sont des assertions
a8 = [[forme(face-exhalante)] = V81 ]] ∧
[[subparts(face-exhalante)] = {orifices, cône-central, membrane-criblée}]
(voir a6 et a8 sur le schéma du modèle descriptif de la figure 5.2 : on remarquera
la correspondance entre un objet physique “face exhalante” et l'objet contextuel
“macro constituants”. Ce dernier est un label de description, une étiquette
indiquant qu'il faut observer à une échelle macroscopique alors que les autres
objets du corps de l'éponge s'observent dans un contexte microscopique) :
140
Chapitre 5
Fig. 5.2 : Schéma de la structure du modèle descriptif
5.2 Les hordes composites
5.2.1 Rappel sur les hordes (symboliques)
La horde symbolique hs = ∧ i [yi (ui ) = V i ] exprime que “La variable yi de
l'individu i prend des valeurs dans Vi ”. Elle est définie par l'application hs.
141
Formalisation de la notion d'objet en biologie
hs : Ω n → {vrai, faux} / ∀ u = (u1 ,...,u n ) ∈ Ω n , h s (u) = vrai ssi
∀ i = 1,...,p on a yi (ui ) ∈ Vi .
Dans la notation précédente, les ui représentent différentes instances d’individus
non nécessairement identiques.
L'extension de hs notée | hs | Ω est l'ensemble des individus u ∈ Ω n pour
lesquels hs(u) = vrai. Lorsque tous les ui sont identiques, l'objet horde se réduit
à un objet assertion (on a H ⊃ A, l’ensemble des hordes du domaine).
5.2.2 proposition : les objets hordes
Un objet horde est défini par la fonction h.
h : Ω n → {vrai, faux} / h(u) = vrai ssi ∀ i = 1,...,p
on a yi (ui ) ∈ Oi .
Exemple :
Soit Ω 3 2 = {w1 , ..,w32 } , l'ensemble des descriptions observées de dents chez
un humain.
Soit Λ l'ensemble de toutes les variables observables sur une dent d'humain,
Soit Y = {y1 = [position(dents)], y2 = [face-occlusale(dents)]}, l'ensemble des
variables observées.
Soit O1 l'ensemble de toutes les positions observables pour y1.
Soit O2 l'ensemble des aspects de la face occlusale possibles pour y2 . Il s’agit de
la partie mordante de la dent.
Soit l'objet horde décrivant les quatre sortes de dents que l'on rencontre chez
l'humain :
142
h =
Chapitre 5
[[position(dents)] (u1 ) = en-arriere = V1 ] ∧
[[face-occlusale(dents)] (u1 ) = 4-pointes = V' 1 ] ∧
(molaires)
[[position(dents)] (u2 ) = au-milieu = V2 ] ∧
[[face-occlusale(dents)] (u2 ) = 2-pointes = V' 2 ] ∧
(prémolaires)
[[position(dents)] (u3 ) = devant = V3 ] ∧
[[face-occlusale(dents)] (u3 ) = 1-pointe = V' 3 ] ∧
(canines)
[[position(dents)] (u4 ) = devant = V4 ] ∧
[[face-occlusale(dents)] (u4 ) = arrête = V'4 ]
(incisives)
Dans cet exemple, on caractérise sans les nommer les quatre sortes de dents chez
les humains (les Incisives, les Canines, les Prémolaires et les Molaires). On
aurait pu très bien décrire chaque classe de dent par une assertion
(respectivement chaque u i ) à condition de la nommer. Utiliser les hordes se
justifie lorsque l'on désire constituer une base de cas portant sur différentes
sortes d'objets d'un même type (les dents) sans que l’utilisateur soit contraint
d'en connaître le nom pour les spécialiser.
Par la suite, à partir de ces cas, on pourra effectuer une classification locale (une
généralisation) de ces différentes sortes d'objets. Cela permet d'extraire pour
chaque sorte une description de Classe avec ses critères représentatifs, ainsi que
l'intervalle de variation des valeurs.
L'appartenance d'une nouvelle dent à l'une des Classes peut alors être testée par
description puis comparaison avec la représentation en intension des Classes.
5.2.3 Définition des hordes composites
➢ Soit l'espace de description Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm
m étant le nombre de parties d'une entité w, on définit l'ensemble des parties
élémentaires observées de w : [Ω i ]ni = {pi1 ,..,pik ,..,pin }, n étant le nombre de
parties élémentaires instanciées observées d'une partie pi de Ω i , et k étant la
kème instance observée, pik est donc la kème instance de la partie i de l'entité w.
➢ Soient Πi , Λ i , Yi , Oi les ensembles définis au paragraphe 5.1.1.
143
Formalisation de la notion d'objet en biologie
Définition :
Soit H l'ensemble des hordes du domaine, une horde composite hi ∈ H est une
fonction [Ω i ]ni → {vrai, faux} / hi (uij ) = vrai ssi
∀ i = 1,...,p ∀ j = 1,...,q on a yij (uij ) ∈ Oij
avec la propriété suivante :
i i
ij
hi est définie par la conjonction d'évènements [yj(uk) = V k ] dont les k objets
i
i
instanciés u k d'une partie élémentaire pk de w ne sont pas nécessairement
i
identiques et dont une valeur au moins de yj est une assertion ai ou une horde hi
définie sur Ω j :
i
ni
y j est une fonction de i ]
i i
ij
ij
hi = i [y j (uk ) = Vk ] avec v Vk / v
Oj
A j ou v
Hj
De même que pour les assertions composites, on peut illustrer la définition
précédente par le schéma de la figure 5.3 ou i est une partie de w représentée par
une description sous forme de tableau des variables yij avec chaque ligne
correspondant à une instance de la partie i, et j est par exemple une autre partie
représentée par une assertion composite :
ni
i
i
1
y
y
i
j
y
i
p
i
1
j
u
i
u
k
i
m
u
ij
V
k
ip
V
k
y
j
1
j
1
V
j
j
y
j
j
V
y
V
Fig. 5.3 : Illustration d’une horde composite hi
5.2.4 Exemples
Une horde composite “membres” de mammifère s'écrit :
j
l
j
l
y
j
q
V
j
r
144
Chapitre 5
hx = [[longueur(membres)] (ux1 ) = Vx,1
1 ]] ∧
[[position(membres)] (ux1 ) = Vx,2
1
= {avant}] ∧
[[subparts(membres)] (ux1 ) = {pieds(ux1 ), genoux(u x1 ), jambes(ux1 )}] ∧
[[longueur(membres)] (ux2 ) = Vx,2
1 ]] ∧
[[position(membres)] (ux2 ) = {arrière}] ∧
[[subparts(membres)] (ux2 ) = {pieds(ux2 ), genoux(u x2 ), jambes(ux2 )}]
x,3
x,3
Les valeurs Vx,3
de la variables yx3 = [subparts(membres)] sont ici
1 , V2 , V3
des assertions :
x
y,2
ay = pieds(ux1 ) = [[forme(pieds)] (ux1 ) = Vy,1
1 ]] ∧ [[taille(pieds)] (u1 ) = V2 ]
Dans cet exemple, l’utilisateur qui ne sait pas distinguer les membres postérieurs
des membres antérieurs d’un mammifère peut néanmoins décrire deux sortes de
membres sans avoir la connaissance de spécialisation nécessaire. Il indiquera
seulement la position des membres : à l’avant ou bien à l’arrière.
Une horde composite “microxyhexactines” de l'éponge s'écrit :
16,1
h16 = [[diametre(microxyhexactines)] (u16
]∧
1 ) = V1
16,2
[[localisation(microxyhexactines)] (u16
]∧
1 ) = V1
16
[[subparts(microxyhexactines)] (u16
1 ) = {rayon(u1 )}] ∧
16,1
[[diametre(microxyhexactines)] (u16
]∧
2 ) = V2
16,2
[[localisation(microxyhexactines)] (u16
]∧
2 ) = V2
16
[[subparts(microxyhexactines)] (u16
2 ) = {rayon(u2 )}]
5.3 Les objets de synthèse
5.3.1 Rappel sur les objets de synthèse (symboliques)
➢ Soient Ω 1 ,..., Ω m m ensembles de parties élémentaires de w caractérisées
respectivement par m ensembles de variables Y1 ,..., Ym.
Hi est l'ensemble de toutes les hordes symboliques définies sur [Ω i ]ni .
145
Formalisation de la notion d'objet en biologie
Un objet de synthèse symbolique ss est la conjonction des m objets horde
h1 ,..., hm définis sur H1 ,..., Hm :
ss = h1 ∧ ... ∧hm avec hi ∈ Hi
➢ Soit l'ensemble U des objets instanciés sur [Ω m ]nm
: U = (U 1 , ... , U m)
Soient Ui = (uij1 ,..,u ijk ,..,u ijn ) ∈ [Ω i ]ni , l'ensemble des instances de l'objet i,
Yi ∈ (Y1 ,..., Ym), l’ensemble des variables observables de l’objet i,
Vi ∈ (V1 ,..., Vm), l’ensemble des variables observées de l’objet i,
s(U) = ∧ i [Yi (Ui ) = Vi ].
L'objet de synthèse symbolique ss est défini par l'application ss :
ss : Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm → {vrai, faux}
ss(U) = vrai ssi
∀ i = 1,...,m
∀ j = 1,...,nm
∀ k = 1,...,n on a yijk (uijk ) ∈ Vijk .
p
/
ij
L’extension est | ss | Ω = {w = (w 11 ,..,wi1 ,..,wik ,..,wn k ) ∈ Ω / yk(uijk ) ∈ Vikj
}.
5.3.2 Proposition : les objets de synthèse
L'objet de synthèse s, qui est la description d'un individu ou d’un spécimen (une
unité), est défini par l'application s :
s : Ω = [Ω1 ]n1 x [Ω 2 ]n2 x ... x [Ω m ]nm → {vrai, faux}
s(U) = vrai ssi
/
∀ i = 1,...,m
∀ j = 1,...,nm
∀ k = 1,...,n on a yijk (uijk ) ∈ Oij .
5.3.3 Exemple
Une éponge dans notre application est une entité individuelle complexe
représentée par l'objet de synthèse s qui est la conjonction de 2 objets hordes
composites (les amphidisques et les microxyhexactines) et de 20 objets
assertions composites. L'objet horde composite “amphidisques” est instancié au
maximum 4 fois alors que l'objet horde composite “microxyhexactines” est
instancié 2 fois :
s : Ω = Ω 1 x Ω 2 x...x Ω 15 x [Ω 116 x Ω 216 ] x [Ω 117 x Ω 217 x Ω 317 x Ω 417 ] x
Ω 1 8 x...
... x Ω 22 → {vrai, faux}
146
Chapitre 5
5.4 Les objets munis de méthodes et de propriétés
Afin d'exprimer les liens entre les objets et les variables, on peut être amené à
écrire des règles au sein d'un objet assertion ou horde composites. Il suffit pour
cela d'ajouter par conjonction des évènements élémentaires définissant par
exemple une contrainte sur l'existence d'une variable ou d'un objet.
Les règles peuvent s'exprimer sous la forme (si yi = V i alors yj = V j ) s'il y a
dépendance entre un sous-ensemble de valeurs Vi ⊂ Oi et un sous-ensemble de
valeurs Vj ⊂ Oj :
Par exemple dans l'assertion “culture” attachée à une parcelle de plantes
maraîchères, une règle sur le mode de culture permet de restreindre l'intervalle
des valeurs possibles à une valeur pour le type de culture :
a
= [[stade(culture)] = V1 ] ∧ [si [[mode(culture)] = plein-champ] alors
[[type(culture)] = en-sol]].
Ces règles peuvent aussi permettre de restreindre l'espace des variables
observables Λ <i ainsi que l'espace des objets observables Π<i d'un objet i.
Soit Π<i = { Πk , k ∈ {1,...,m} / “l'objet k est une sous-partie de l'objet i”},
l'ensemble des objets observables sous-parties de l'objet i.
Soit Λ <i = { Λ k , k ∈ {1,...,m} / “l'objet k est une sous-partie de l'objet i”},
l'ensemble des ensembles de variables observables des objets observables sousparties de l'objet i.
5.4.1 Cas des variables :
S'il y a dépendance entre un sous-ensemble de valeurs Vj ⊂ Oj et un sousensemble de variables Λ k ⊂ Λ j , une règle sera du type :
si y i = V i alors ∃ Λ k ∈ Λ <i /
Λ j = Λ j \ Λ k (\ est le symbole
d’exception)
Exemple :
Prenons l'assertion “orifices” de la face exhalante (partie n° 9 du schéma de la
figure 5.2) :
ae12 = [[nombre(orifices)] = V12
1 ]∧
[si [[nombre(orifices)] ∈ {unique, ?}] alors
[Λ 12 = Λ 12 \ {[dimensions(orifices)] , [repartition(orifices)]}]]
Formalisation de la notion d'objet en biologie
147
Cette assertion exprime le fait que si on a qu'un seul orifice à la face exhalante,
alors on ne doit pas s'intéresser à la description des variables observables
dimension et répartition des orifices (la 1ère parce qu'elle n'est plus pertinente, la
seconde parce qu'elle n'est pas observable dans ce contexte).
5.4.2 Cas des objets :
S'il y a dépendance entre un sous-ensemble de valeurs Vj ⊂ Oj et un sousensemble d'objets Πk ⊂ Π , on peut avoir une règle du type :
si yi = Vi alors ∃ Πk ∈ Π<i / Π = Π \ Πk
Exemple :
Prenons la horde composite “amphidisques” :
h17 = [si [[type(amphidisques)] (u17
i ) = micramphidisque] alors
[Λ 20 = Λ 20 \{[allongement(ombrelles)] (u17
i )}] ∧
[Π = Π\ {dents(u17
i )}]]] ∧
17,1
[[localisation(amphidisques)] (u17
]∧
1 ) = V1
17,1
[[taille(amphidisques)] (u17
]∧
1 ) = V2
∧
17
17
17
[subpart(amphidisques)](u17
1 ) = {tige(u 1 ),ombrelles(u 1 ),dents(u1 )}]
17,2
[[localisation(amphidisques)] (u17
]∧
2 ) = V1
17,2
[[taille(amphidisques)] (u17
]∧
2 ) = V2
[...]
Dans cette horde, la règle indique que si le type de l'amphidisque est un
micramphidisque (quelle que soit l’instance d’amphidisque concernée), alors on
ne doit pas s'intéresser à la description de la variable allongement des ombrelles
(partie n° 20 de l'éponge) de l'amphidisque (partie n° 17), mais aussi que les
dents (partie n° 21) de ces micramphidisques ne sont plus observables dans ce
contexte.
Plus généralement, on peut énoncer des règles implicites très fortes s'appliquant
à chaque objet de la description dont la valeur attachée à la variable
yi = “sous-partie-de(objet i)” est un objet non présent (¬) ou inconnu (?) :
∀ v ∈ Vi ,
si yi = ¬v ou yi = ?v
alors
∀ Πk ∈ Π<i , ∀ Λ k ∈ Λ <i
Π = Π \ Πk et Λ j = Λ j \ Λ k
148
Chapitre 5
Exemples :
1) [si [[sous-partie-de(champignon1 )] = ?chapeau] alors
[Λ 1 = Λ 1 \ {[couleur(chapeau)] , [forme(chapeau)]}]]
2) [si [[subparts(micro-elements)] = ¬microxyhexactines(ui )] alors
[Λ 16 = Λ 16 \{[diametre(microxyhexactines)](ui ) ,
[localisation(microxyhexactines)](ui )}] ∧
[Λ 15 = Λ 15 \ {[rugosite(rayons)](ui ) , [forme(rayons)](u i )}] ∧
[Π = Π
\ {rayons(ui )}]]
La règle 2 signifie que lorsqu’il n’y a pas d’objet microxyhexactines dans la
description (qu’il soit multi-instancié par ui ou non), alors une telle description
constituerait une incohérence : il est inutile de décrire le diamètre et la localisation
de cet objet ainsi que de renseigner l’objet rayons qui n’existe pas dans ce
contexte.
5.5 Les objets classifiés
On peut définir un ordre partiel sur des objets pi et p' i en fonction de leurs
extensions | pi | et | p' i | permettant de formaliser les notions d'héritage et de
généralisation [Brito, 1991] :
∀ pi , p' i ∈ Πi , on dit que pi ≤ p' i ssi | pi | ⊆ |p' i |
On dira que pi hérite de p'i si pi ≤ p' i et que p' i est plus général que pi
Exemple :
En considérant l'ensemble des baleines et l'ensemble des mammifères, la partie
pi = “nageoires latérales” des baleines est une spécialisation de la partie
p’i = “membres-antérieurs” des mammifères.
Les nageoires héritent des propriétés des membres antérieurs tout en ayant des
caractéristiques propres (comme celle par exemple de ne pas avoir de sousparties bras et mains).
Formalisation de la notion d'objet en biologie
149
5.6 Les exemples d'apprentissage
Un cas ou un exemple d'apprentissage dans notre application est un objet de
synthèse. C’est une conjonction w ∈ Ω d'objets instanciés sur la base du modèle
descriptif pour lesquels s(w) = vrai :
A titre d'exemple, nous présentons le cas w16 pour lequel s(w16 ) = vrai :
w16 = {[[subparts(eponge)] = {description,identification,contexte}] ∧
[[subparts(description)] = corps] ∧
[[classe(identification)] = Prionema] ∧
[[reference(identification)] = “Spinosum Lendenfeld 1915"] ∧
[[localite(contexte)] = “Pacifique est"] ∧
[[latitude(contexte)] = “0°4'N"] ∧
[[longitude(contexte)] = “117°15'W"] ∧
[[profondeur(contexte)] = “4243m"] ∧
[[subparts(corps)] = micro-elements] ∧
[[taille(corps)] = 47 mm] ∧
[[forme(corps)] = aplatie(en-galette)] ∧
[[subparts(micro-elements)] = {amphidisques(v1 ), amphidisques(v2 ),
amphidisques(v3 ), microxyhexactines(u1 ),
¬microxyhexactines(u2 ), pinules-dermaux}] ∧
[[type(amphidisques)](v1 ) = macramphidisque] ∧
[[localisation(amphidisques)](v1 ) = disperce-partout] ∧
[[taille(amphidisques)](v1 ) = [180 , 299] mus] ∧
[[subparts(amphidisques)](v1 ) = {tige(v1 ), ombrelles(v1 ), dents(v 1 )}] ∧
[[type(amphidisques)](v2 ) = mesamphidisque] ∧
[[taille(amphidisques)](v2 ) = [45 , 127] mus] ∧
[[subparts(amphidisques)](v2 ) = {tige(v2 ), ombrelles(v2 ), dents(v 2 )}] ∧
[[type(amphidisques)](v3 ) = micramphidisque] ∧
[[localisation(amphidisques)](v3 ) = disperse-partout] ∧
[[taille(amphidisques)](v3 ) = [13 , 29] mus] ∧
[[subparts(microxyhexactines)] (u1 ) = rayons] ∧
[[diametre(microxyhexactines)] (u1 ) = [108 , 179] mus] ∧
[[localisation(microxyhexactines)] (u1 ) = en-paquets] ∧
[[longueur-du-rayon-distal(pinules-dermaux)] = [100 154] mus] ∧
150
Chapitre 5
[[largeur-maximale(pinules-dermaux)] = [10 , 17] mus] ∧
[[tuberculee(tige)](v1 ) = oui] ∧
[[allongement(ombrelles)](v1 ) = [1.00 , 1.63]] ∧
[[longueur-relative(ombrelles)](v1 ) = [0.21 , 0.38]] ∧
[[bord(dents)](v1 ) = lisse] ∧
[[tuberculee(tige)](v2 ) = oui] ∧
[[allongement(ombrelles)](v2 ) = [1.08 , 1.87]] ∧
[[longueur-relative(ombrelles)](v2 ) = [0.28 , 0.44]] ∧
[[bord(dents)](v2 ) = lisse] ∧
[[forme(rayons)] = droits] ∧ [[rugosite(rayons)] = epineux] }
La description de tous les objets de synthèse de Hyalonema constitue l'ensemble
Ω = {w1 ,...,wn } des entités concrètes ou individus observés.
On appellera aussi cet ensemble la base de cas ou base d'exemples du domaine.
Dans cette description d'éponge, on remarque que toute l'information est
présente, alors que la non-information est absente : l'inconnu comme valeur
d'une variable n'est pas une information, pas plus que la présence inconnue d'un
objet. On met en évidence l'existence d'une variable qualitative particulière
nommée “classe(identification)” qui sera la variable à expliquer ou le concept à
apprendre dans le système d'apprentissage. Cette variable possède 12 valeurs ou
modalités dans la base de cas.
Par définition, un exemple où ne figure pas cette variable à expliquer sera
appelée une observation du domaine. Enfin, on peut aussi noter la variable
[forme(corps)] qui prend comme état une hiérarchie de valeurs.
Le problème posé dans la pratique est celui de discriminer efficacement les
différents objets de synthèse instanciés dans la base d'exemples afin de fabriquer
un système expert d'identification pour le Genre Hyalonema. Nous employons
pour cela une méthode inductive décrite dans le chapitre 7. Les observations
nouvelles serviront à consulter le système expert et eventuellement à constituer
de nouveaux cas.
151
Formalisation de la notion d'objet en biologie
5.7 Conclusion
Le schéma de la figure 5.4 synthétise ce qui vient d’être dit dans ce chapitre. Il
montre les relations existant entre les différents espaces qui permettent la
description d’un individu. Les parties grisées symbolisent les espaces
observables ∏, Λ et O (ce qui est possible d’observer pour chaque individu à
décrire) alors que les parties vides illustrent les ensembles observés Ω, Y et V
qui composent les descriptions dans la base de cas :
Espace des Individus
Espace des variables
Y
w
Y
Chaque individu est décrit
par un objet structuré
avec des liens de sous-parties
1
w
1
Y
i
wn
Y
p
partie i de w
partie h de w
h
h=i-1
ni
i
1
h
h
y1
...
i
i
h
V1
y
h
yj
y
h
h
l
h
Vj
Vl
yh
i
yj
i
yp
ui
q
1
h
Vr
ui
...
ij
Vk
k
i
m
u
Espace d'observation
Produit Cartésien de
sous-ensembles disjoints
O
h
O1
O1
h
Oj
h
Ol
h
Or
Oh
Fig. 5.4 : Schéma de formalisation des données
On
152
Chapitre 5
En reprenant la description d’un individu, on met en évidence qu’elle est
structurée selon la relation de composition entre les différents objets. Chaque
objet représente une partie de la descrition sans qu’il y ait de recouvrement entre
eux (la description est formée du produit cartésien de sous-ensembles disjoints).
Cette présentation permet de bien faire la différence entre les objets qui sont
décrits une seule fois et ceux qui sont décrits plusieurs fois au sein d’une même
description. Un zoom sur chacun de ces objets permet d’apprécier leur
description locale. Les premiers sont des objets assertions composites
symbolisés sur la figure à gauche par un vecteur de valeurs d’attributs (les
variables étant indiquées dans la première ligne). Les seconds sont des objets
hordes composites décrits par le tableau de droite avec chaque instance de la
horde occupant une ligne du tableau. Pour chaque description locale d’un objet,
le schéma montre la différence entre les variables relationnelles et les variables
terminales. Les premières ont un espace d’observation dont les valeurs sont
d’autres objets observés contrairement aux seconds.
Le schéma précédent n’indique pas néanmoins la description des objets munis de
méthodes et propriétés ainsi que les objets classifiés (cf. § 5.4 et 5.5). Ces
caractéristiques sont des raffinements de la description d’un individu qui
permettent de préciser les conditions d’applicabilité des variables (objets et
attributs) en fonction d’autres variables, et de spécifier les variables elles mêmes
en fonction du contexte (la spécialisation). Comme ces caractéristiques
dépendent du domaine considéré, elles n’ont pas été introduites dans la figure
pour ne pas la compliquer d’avantage. Néanmoins, ces connaissances
supplémentaires doivent être explicitées dans la représentation des connaissances
car elles expriment souvent le “bon sens” qu’il faut donner aux descriptions.
VI FORMALISATION INFORMATIQUE
DES DESCRIPTIONS : HYPERQUEST
Après avoir défini mathématiquement les objets des descriptions, nous abordons
maintenant l'aspect pratique du travail de cette thèse. Nous avons tout d'abord
réalisé un outil informatique baptisé HyperQuest qui permet d'acquérir des
descriptions robustes pour l'apprentissage. Dans le chapitre 7, nous parlerons
d'un autre outil implanté au cours de ce travail (CaseWork) dont l'objectif est de
répondre à une meilleure robustesse de la phase de consultation face aux données
manquantes.
6.1 Pourquoi HyperQuest ?
La description d'objets est une activité qui intervient à chaque fois qu'il est
nécessaire de reconnaître ou d'identifier quelque chose. L’identification se fonde
sur l’observation visuelle des objets à distinguer. La description est le processus
d’abstraction de ces observations.
HyperQuest est l’outil d’acquisition de connaissances descriptives que nous
avons développé pendant cette thèse pour acquérir des descriptions robustes.
Cette activité mentale de description pourrait apparaître purement intuitive, mais
elle se réfère en fait à un modèle implicite plus ou moins structuré. L'obtention
de ce modèle descriptif, pour un domaine donné, est une étape fondamentale
dans le processus cognitif qui permet de passer de l'observation à la description.
HyperQuest est l’outil qui permet à l’expert et/ou au cogniticien de construire
le modèle descriptif du domaine. Il s’agit de connaissances observables
structurées avec des relations entre les objets qui composent le sujet d'étude. Ces
connaissances sont représentées dans un formalisme à base d’objets. Les
connaissances initiales sont écrites au format LCRC (Langage Commun de
Représentation des Connaissances) ou CASUEL qui est la syntaxe commune de
représentation des connaissances par le consortium européen ESPRIT sur le
raisonnement par cas (INRECA).
Dans un deuxième temps, HyperQuest sert à construire un questionnaire
interactif hypertexte. Le questionnaire est généré automatiquement à partir du
modèle descriptif. L’expert ou l’utilisateur final du système utilisent celui-ci pour
acquérir des descriptions individuelles et constituer une base de cas (aussi au
154
Chapitre 6
format LCRC et CASUEL). Les cas sont les connaissances observées du
domaine qui seront ensuite traitées par les programmes KATE et CaseWork.
6.2 Particularités d’HyperQuest
HyperQuest se présente sous la forme de plusieurs piles HyperCard et est écrit
en HyperTalkTM 2.1 [Apple, 1988] et en langage C. L’intérêt d’utiliser
HyperQuest sous HyperCard réside dans le fait de pouvoir bénéficier à la fois
des avantages de la programmation par objets et de la programmation hypertexte.
Le langage C est utilisé pour accroître les performances de certaines procédures
au travers de commandes et fonctions externes à HyperCard (XCMD & XFCN).
Les objets conceptuels composant la structure du modèle descriptif se traduisent
directement par des entités hypertextes avec une certaine correspondance (voir §
6.4.2). Les objets, attributs et valeurs correspondent à des formes graphiques
différentes (cartes, boutons et champs). Les cartes et les boutons représentent
les objets et les valeurs alors que les champs représentent les attributs. Les
boutons sont des zones sensibles de la carte que l’utilisateur du questionnaire
peut choisir avec un clic de la souris pour déclencher une action. Cela permet par
exemple d’aller décrire les objets qu’ils représentent dans une autre carte appelée
par le message associé au bouton sélectionné (voir § 6.5.2.1). Les champs sont
des zones de stockage des réponses de l’utilisateur collectées par l'intermédiaire
des boutons de valeurs.
Le modèle et le questionnaire permettent une navigation aisée pour la description
des objets observés qui composent un cas. La description dans le questionnaire
se fait sans autre contrainte que celle de l’ordre logique apporté par les
connaissances initiales sur le domaine. Les connaissances de fond révélées par
l’expert et le cogniticien permettent de structurer le déroulement des questions
posées à l’utilisateur dans un ordre logique. Le questionnaire résultant est un
outil simple et convivial : on peut aisément naviguer entre les cartes et associer
des images ou dessins avec les boutons pour illustrer les objets à décrire.
L’un des objectifs d'HyperQuest est de fournir un questionnaire d’acquisition de
cas : par exemple “Questionnaire Hyalonema” est le nom du questionnaire pour
notre application d'identification d’un Genre d’éponges marines (Hyalonema)
réalisée au MNHN.
HyperQuest génère la description du modèle descriptif et des cas selon la syntaxe
LCRC ou CASUEL. La génération de descriptions peut être considérée comme
un but en soi pour constituer une base de données de référence. Néanmoins,
HyperQuest est intégré avec KATE qui utilise des techniques d'apprentissage
automatique pour générer un système expert de détermination, ou CaseWork qui
est un système de raisonnement par cas (voir chapitre 7).
Formalisation informatique des descriptions : HyperQuest
155
HyperQuest est un module particulier du système global d'acquisition de
connaissances décrit au chapitre 2 (§ 2.4). Il contient à la fois un générateur de
modèle descriptif et un générateur automatique de questionnaire. Chaque
questionnaire est issu d’un modèle descriptif. Pour comprendre l’architecture
d’HyperQuest sous forme de piles HyperCard, le lecteur intéressé peut se référer
à l'annexe 4, cette partie provenant du manuel d'utilisation d'HyperQuest
[Conruyt & Dumont, 1993].
6.3 Le générateur de modèle
La première étape de fabrication d'un système expert à l'aide de l'apprentissage à
partir d'exemples est de définir les objets du domaine au sein d'un modèle
descriptif. Cette phase primordiale n'est pas simple à réaliser. Son objectif est
d'organiser et d'expliciter le plus fidèlement possible le modèle conceptuel de
l'expert pour son domaine d'étude. L'outil générateur de modèle descriptif
d'HyperQuest a pour but de l'aider à modéliser ses connaissances observables, à
les délimiter pour qu'elles soient réutilisées ensuite par les autres modules du
système d'apprentissage.
6.3.1 Conception d’un modèle descriptif
La conception d’un modèle descriptif suit une certaine logique et quelques règles
d’organisation : globalement, le modèle est structuré selon une ou plusieurs
hiérarchies qui dépendent les unes des autres (dans le sens du plus général vers
le plus particulier). Ces hiérarchies sont des arbres (des graphes sans cycle)
définis par les informaticiens sous forme récursive [Knuth, 1968] cité par
[Crémilleux, 1991] :
Un arbre est un ensemble fini d’un ou plusieurs nœuds tels que :
◊ il existe un nœud particulier appelé la racine de l’arbre,
◊ les autres nœuds se répartissent en m ensembles disjoints1 (m ≥ 0) dont
chacun constitue à son tour un arbre.
Au niveau de la modélisation, les arbres permettent de représenter la
connaissance observable sous une forme structurée dont chaque nœud
correspond à un objet. Cette connaissance ne doit pas être confondue avec un
arbre de décision qui est le fruit du traitement des descriptions (les nœuds sont
alors des critères de décision) alors qu’un arbre de modélisation est indépendant
de tout traitement.
1
Les “m ensembles disjoints” correspondent aux m branches issues de la racine.
156
Chapitre 6
De même, ces arbres ne doivent pas être assimilés à des taxonomies qui
définissent une classification des individus, et dont chaque nœud constitue un
taxon (un ensemble d’individus).
Le but des arbres est ici de structurer les descriptions. Cette structuration a lieu
dans deux dimensions selon les deux relations les plus naturelles que nous avons
mentionnées aux chapitres 3 et 4 : dépendances (relations de composition ou
assertions composites) et spécialisations (relations d’héritage ou ordre partiel
entre les objets).
L’objet (le composant) se trouve à la jonction de ces deux dimensions : d’un
coté, il peut être partitionné. De l’autre, il peut être précisé. Afin de bien faire la
distinction entre les deux notions, nous avons choisi de représenter
graphiquement l’observable dans deux dimensions correspondant à des fenêtres
graphiques différentes (figure 6.1).
Cette exigence permet de répondre à un des buts principaux du modèle descriptif
qui est de servir d’ossature à un guide d’observation. Un arbre possède la
propriété d’avoir un début (la racine) et une ou plusieurs fins (la feuille) et la
“remontée” dans l’arbre ne s’effectue que par un seul chemin. C’est pourquoi
nous avons décidé d’éviter une représentation graphique sous forme de réseau
sémantique comme dans KL-ONE [Brachman, 1977], [Brachman & Schmolze,
1985] ou de graphe conceptuel [Sowa, 1984] dans laquelle les relations sont
mélangées dans un même plan visuel. Cette manière de procéder (que l’on
retrouve dans les applications industrielles) est inapplicable dans nos applications
biologiques du fait qu’aucun ordre entre relations n’y est apparent.
Or la modélisation des descriptions d’un système naturel fait apparaître un ordre
naturel dans les relations entre objets : un individu à décrire se décompose en
objets et chaque composant peut être à son tour précisé (si nécessaire).
L’individu représente la racine de l’arbre de (dé)composition alors que si l’objet
est précisable, il se trouve être à la racine de l’arbre de spécialisation.
C’est pourquoi nous avons choisi de représenter explicitement la relation de
composition (ou de dépendance) dans le plan principal. Chaque objet composant
ce plan peut être ensuite précisé selon la relation de spécialisation (ou de
particularisation). Cette structuration à deux dimensions “orthogonales”
subordonne la relation de spécialisation à celle de composition (figure 6.1) :
Formalisation informatique des descriptions : HyperQuest
157
Fig. 6.1 : Vue des deux plans orthogonaux de description des objets en pathologie végétale
Dans l’exemple ci-dessus concernant le système TOM, le plan principal est celui
de la décomposition d’un plan de tomate (l’individu situé à la racine de la vue
globale) en sous-parties disjointes. Les objets fictifs, représentés sans
encadrement, permettent de structurer le domaine, alors que les objets
significatifs ont un sens vis-à-vis de l’objectif de détermination des maladies.
Pour que le schéma reste lisible, on n’a représenté que l’objet “symptôme sur
folioles” comme significatif, mais tous les autres symptômes non représentés ici
sur les autres organes sont aussi significatifs. De même ne sont pas représentés
ici les attributs et les valeurs possibles des objets du domaine.
La sélection de l’objet “symptôme sur folioles” provoque l’affichage d’une
seconde fenêtre superposée, montrant qu’il est la racine d’un arbre de
spécialisation. Pour bien marquer la différence entre les relations de composition
et les relations de spécialisation, nous avons symbolisé les premières par des
lignes angulaires alors que les secondes le sont par des lignes directes ou
obliques (voir figure 6.1).
De plus, la règle d’organisation des objets du plus général au plus particulier est
respectée : les objets les plus généraux se retrouvent vers la racine (vers la
gauche), quelle que soit la dimension relationnelle à expliciter (dépendance ou
spécialisation). On observe ainsi que la généralité de description des symptômes
sur foliole peut s’exprimer par des disjonctions de concepts (“taches ou plages”
est un concept disjonctif, plus général que “taches” et que “plages”).
158
Chapitre 6
6.3.2 Règles d’élaboration du modèle descriptif
Les règles pour établir un bon modèle descriptif sont les suivantes :
D’abord, acquérir l’observable est basé sur l’observation de la variabilité de
l’observé. Le modèle descriptif n’est pas une vue de l’esprit mais repose sur
l’expérience et la familiarité avec le domaine. C’est avant tout un travail de
spécialiste.
Ensuite, il faut connaître les objectifs de la modélisation : faire de bonnes
descriptions ne suffit pas, il faut savoir dans quel but on les fait :
1) classification a) d’individus
b) d’objets
2) détermination a) d’individus
b) d’objets
1a) La classification d’individus est un objectif majeur pour les biologistes
au MNHN. C’est une démarche exploratoire de scientifiques qui cherchent à
remettre en cause des classifications préexistantes. Les descriptions de
spécimens constituent la base de ce travail de classification. Le but est de saisir le
maximum de caractères sur les individus, sans a priori sur leur utilité pour une
classification : l’exhaustivité des descriptions d’individus est recherchée.
1b) La classification d’objets ne met pas en œuvre le même modèle
descriptif que la classification d’individus. C’est un objectif plus précis qui se
focalise sur un objet particulier, et ceci indépendamment de l’individu qui le
contient. Il faut pour cela étoffer la description de l’objet à classifier par un
nombre plus important de caractères propres. Cet objectif répond à un besoin
d’homogénéisation du vocabulaire dans la communauté des chercheurs du
domaine ainsi que de la recherche des homologies entre caractères. La logique
d’itération (§ 4.4.6) permet de pallier temporairement les écarts d’interprétation
sur le nom réel des objets. Dans notre modèle sur les Hyalonema, la
classification des amphidisques est une retombée possible de nos descriptions
d’individus (par extraction des sous descriptions de cet objet), mais cela n’était
pas le but recherché au départ.
2a) La détermination d’individus était le seul but recherché dans l’approche
SEPV de l’INRA (§ 1.1). C’est aussi un objectif au MNHN. La détermination
d’individus n’est pas que l’affaire de spécialistes. Elle peut être mise en œuvre
par des béotiens du domaine. Ces utilisateurs n’ont pas toujours la connaissance
suffisante pour répondre aux questions du système expert. C’est pourquoi la
redondance des caractères ne doit pas être écartée lors de la conception du
Formalisation informatique des descriptions : HyperQuest
159
modèle descriptif afin que les corrélations entre caractères permettent de
remplacer ceux auxquels l’utilisateur ne sait pas répondre (caractères alternatifs).
2b) La détermination d’objets n’est pas un problème que nous avons
abordé jusqu’à maintenant, du fait qu’il n’existe pas de classification de ces
objets reconnue par la majorité des descripteurs. Il s’agirait par exemple de
reconnaître en pathologie végétale les limites et les différences d’interprétation
selon les observateurs entre les concepts de tache, nécrose, plages, mosaïques,
etc.. C’est un sous problème de la détermination des individus (un individu =
une plante avec une certaine maladie) qui est néanmoins important car il peut
influencer le diagnostic du fait que les utilisateurs n’ont pas la même vision
interprétative de ces objets. En l’absence d’une véritable classification de ces
objets admise par tous, la mise en œuvre de dessins explicatifs et de
photos permet de faciliter la compréhension du vocabulaire de l’expert. La
logique d’itération peut aussi être appliquée pour ne pas obliger à nommer les
symptômes. Malgré son importance pratique (au niveau cognitif), la
détermination d’objets est un nouvel axe de recherche dont les retombées ne sont
pas directement perceptibles : les concepts visés ne sont ni des maladies, ni des
taxons ; ce sont simplement des points de description.
Donc, dans un but de classification et de détermination d’individus, il ne faut pas
craindre l’exhaustivité et la redondance des informations qui permettent de
former un modèle complet. L’expert doit être capable de synthétiser tout ce qui a
été observé sur le domaine pour fabriquer l’observable (§ 4.6.1). Il a dû
auparavant analyser beaucoup de spécimens de façon à connaître toutes les
situations. Les futures descriptions seront fondées sur le modèle descriptif et il
est conseillé à l’expert de bien réfléchir à ce niveau. Conscient des objectifs des
descriptions, l’expert peut ensuite se focaliser sur ce qu’elles devraient véhiculer.
L’expert doit résumer l’observé existant en dégageant les faits marquants d’une
bonne description. Toutes les informations n’ont pas le même niveau sémantique
(objets, attributs et valeurs possibles), les faits les plus marquants correspondent
aux objets qui sont eux-mêmes porteurs d’une information locale (attributs et
valeurs). L’objet principal est la racine de l’arbre de décomposition (§ 4.6.2). La
racine correspond à une entité individuelle. Elle peut être identifiée par un nom,
dont nous pensons approprié qu’il identifie le domaine.
Ensuite, le choix des objets dépend de la racine, de la nature des relations qu’ils
entretiennent (composition ou spécialisation) et de leur niveau de généralité (du
plus général au plus particulier) : il faut trouver quelles sont les relations
naturelles (de bon sens) entre les objets afin de bâtir une structure de description.
160
Chapitre 6
6.3.3 Dépendances
Au préalable, dans toute application, on procède à une décomposition des entités
du domaine en objets. Ceux-ci sont reliés par le lien de sous-partie et l'arbre de
décomposition obtenu forme ce que l'on appelle une vue globale du domaine. La
figure 6.2 montre la vue globale du domaine des Hyalonema :
Fig. 6.2 : Vue globale du modèle descriptif des Hyalonema
Certains objets ne sont utiles que pour la structuration du domaine, ils sont dits
fictifs (par rapport à l’objectif de classification) mais cela ne veut pas dire qu’il
faille les négliger pour l’objectif de description lui-même (§ 4.6.5.1.4). Ces
objets (représentés sans encadrement dans le modèle ci-dessus) ne se retrouvent
que pour la vue globale du domaine et sont positionnés dans la partie gauche de
l’arbre de composition : ils correspondent à la logique des points de vue (§
4.4.3).
En se focalisant sur un objet du modèle descriptif, on peut visualiser localement
toutes ses caractéristiques observables. L’exemple de l’objet “amphidisques” est
illustré à la figure 6.3. Il s’agit d’un sous-arbre de la vue globale des
dépendances avec comme racine l’objet “amphidisques”, comme autres nœuds
les objets “composants” et comme branches les liens de dépendance. Le dessin
qui l’accompagne permet de mieux comprendre la nature de ce micro élément et
de faire une comparaison avec l’observable reproduit dans le modèle :
Formalisation informatique des descriptions : HyperQuest
161
Fig. 6.3 : Vue partielle du modèle descriptif des Hyalonema
1) Cet objet contient trois sous-parties bien distinctes : la tige, les ombrelles et les
dents. L’ensemble des objets avec les arcs brisés qui les relient forme le sousarbre descriptif des amphidisques (logique de décomposition au § 4.6.2).
Remarque : on aurait pu aussi faire dépendre les dents des ombrelles.
2) Cet objet est multi-instanciable quatre fois (symbole ×4 ). C’est un des statuts
de l’objet (§ 4.6.5.1.3) qui permet d’en décrire jusqu’à quatre sortes sans être
obligé de les nommer. Le dessin ci-dessus montre les quatre sortes possibles
d’objets à décrire chez un spécimen particulier.
3) Les amphidisques peuvent être absents chez certains spécimens. Cette
information est importante pour la classification (§ 4.6.5.1.1) et est représentée
dans la vue globale par le symbole d’absence possible “-”.
4) Le signe
représente un arbre à arcs droits et symbolise ainsi la présence de
spécialisations pour un objet. En cliquant dessus, on fait apparaître la vue
globale des spécialisations d'un objet : cette action a permis par exemple
d’obtenir des précisions sur la nature d’un symptôme sur folioles à la figure 6.1
162
Chapitre 6
ou bien encore de visualiser la classification locale des amphidisques entre les
figures 6.2 et 6.4.
5) Le symbole “◊” qui précède le nom d’un attribut de l’objet permet de se
rappeler que cet attribut n’a pas encore de domaine d’observation associé (phase
d'élaboration du modèle descriptif).
6) Inversement, le symbole “•” indique que l’expert a déjà renseigné la liste des
valeurs possibles de l'attribut d'un objet.
7) Chaque objet est porteur d’une information locale qui lui est propre comme on
peut le voir sur la figure 6.3. Les attributs des objets, lorsqu'ils existent,
apparaissent dans des champs accrochés aux nœuds de l'arbre. Ils sont activés
par simple clic sur le nom de l'objet. Chaque attribut est indexé à l’objet avec un
certain domaine d’observation. Par exemple, la taille est un attribut qui existe
aussi bien pour l’objet “amphidisques” que pour l’objet “corps” (cf. figure 4.4)
mais leurs domaines d’observation seront différents (le premier s’exprime en
microns et le second en mm).
8) En cliquant une fois sur le nom de l’attribut, on fait apparaître son domaine
d’observation (s’il a été renseigné). La liste des valeurs possibles vient se
superposer à la liste des attributs observables de l’objet (sous l’attribut cliqué).
6.3.4 Spécialisations
La vue globale des dépendances est le plan principal de description des
individus. L’observateur est amené à se déplacer entre les objets pour se
positionner sur l’un d’entre eux : c’est pourquoi on peut parler de parcours d’un
arbre de composition.
Par opposition, un arbre de spécialisation ne se parcourt pas car l’observateur est
en train de décrire un objet sur place. Cet arbre donne la possibilité à l’utilisateur
de choisir un nœud pour remplacer le nom du composant générique par un autre
nom plus précis. C’est donc un arbre de substitution. La substitution
concerne tout objet de l’arbre de composition que l’expert peut faire préciser. Par
conséquence, les arbres de spécialisation sont “orthogonaux” à l’arbre de
composition.
Les arbres de spécialisation n’étant pas de même nature que l’arbre de
composition, on les visualise dans des fenêtres différentes sous la forme d’une
vue globale des choix de substitution possibles.
Dans la figure 6.4, on donne l’exemple de l'objet “amphidisques” spécialisable
en objets “macramphidisques”, “mesamphidisques” et “micramphidisques” selon
Formalisation informatique des descriptions : HyperQuest
163
l’expert. Le résultat est la constitution d’un arbre de spécialisation à un seul
niveau contrairement à celui de la figure 6.1.
Fig. 6.4 : Vue globale des spécialisations de l’objet “amphidisques”
Les conventions utilisées dans cette vue des spécialisations sont identiques à
celles de la vue des dépendances. On notera toutefois que les liens de
spécialisation sont représentés par des arcs droits et obliques et on remarquera
aussi la présence d'un nouveau sigle ; il représente un arbre à arcs brisés et
indique pour la racine l'appartenance de celle-ci à un arbre de dépendances. Il
permet aussi, par un simple clic de faire apparaître la vue des relations de
dépendance de cet objet.
6.3.5 Itérations
Lorsque l’expert décèle plusieurs sortes d’un même objet à décrire sur un même
spécimen et qu’il ne souhaite pas imposer sa propre classification locale des
objets (comme celle qui existe pour les amphidisques ou les symptômes sur
folioles sous forme d’arbres de spécialisation), il doit indiquer le nombre
maximum d’itérations possibles pour la description d’un objet (objet multiinstanciable).
L’itération ne se caractérise pas par un arbre reliant plusieurs objets entre eux
mais par une boucle sur un seul objet qui peut être instancié plusieurs fois (voir
le schéma de la structure du modèle descriptif p. 116). Il s’agit d’une troisième
dimension de description d’un objet, que nous pouvons schématiser comme un
empilement de descriptions ponctuelles.
Afin de mieux comprendre l’itération, il faut se mettre dans la situation au
moment ou le questionnaire est utilisé pour faire une description. Au départ, on a
un modèle d’objets composites ❶ qui constitue la 1 ère dimension horizontale du
processus de description et que l’on va utiliser de la manière suivante :
164
Chapitre 6
×4
❶ arbre de composition
×4
❸ spécialisation
×4
❷ instanciation
×4
❹ renseignement des attributs
puis des sous-parties
×4
objet
instance
objet spécialisant
multi
instanciation
➎ itération
Fig. 6.5 : Processus de description d’un spécimen dans le questionnaire
Lorsque l’on veut faire une nouvelle description, on se situe à la racine.
L’instanciation de cet objet est provoquée par la décision de le décrire.
La description de l’objet fait suite à l’observation du spécimen. Néanmoins, le
modèle descriptif impose un certain ordre pour décrire les objets (selon un
certain parcours du plus général au plus particulier). De plus, au niveau de
chaque objet à décrire, le modèle donne des conditions pour ce qui est
observable sur chacun d’eux. Par exemple, dans le modèle ci-dessus, l’objet
racine ne peut être que présent, il ne peut pas être spécialisé, renseigné
localement par des attributs ou bien encore multi-instancié comme l’objet lui
succédant. C’est en confrontant l’observation à ce qui est possible d’observer
que l’on produit une description d’objet.
Formalisation informatique des descriptions : HyperQuest
165
La procédure de description d’un objet composite implique la navigation dans le
questionnaire par effet de bord. Cette procédure est celle de consultation du
questionnaire décrite par l’algorithme suivant :
Décrire (racine)
Fin
Procédure Décrire (objet)
si objet inconnu alors Fin procédure
si objet absent et si statut = “absence possible” alors Fin procédure
❷
Instancier(objet) ⇒ objeti
❸
si ∃ spécialisation[objeti] et si statut = “spécialisable” alors
Substituer(objeti) ⇒ objeti = spécialisation[objeti]
fin si
❹
tant que ∃ attribut[objeti] alors Renseigner (attribut[objeti])
si objet non terminal alors Décrire (sous-partie d’objet)
tant que ∃ autre-sorte d’objet et si statut = “multi-instanciable” alors
Instancier(autre-sorte)
fin tant que
Fin Procédure
➎
La plupart des objets de l’arbre de composition seront instanciés une seule fois
lors des descriptions. Après, ils pourront ou non être remplacés par un objet
spécialisant (2ème dimension verticale de la description). Ensuite, s’il existe des
attributs de l’objet à décrire, ceux-ci seront renseignés avant de s’intéresser à la
description de ses sous-parties. Enfin, une itération permettra de boucler
plusieurs fois sur la description de l’objet ; chacune des instances produites
pourra à son tour être spécialisée si nécessaire.
Nous pouvons remarquer que l’itération est un processus d’instanciation (3ème
dimension diagonale de la description) qui est toujours mis en œuvre au moment
du passage de l’observable à l’observé : quand cette itération est unique, elle
correspond à une instanciation simple (l’objet se transforme en instance d’objet
par copie différentielle [Bailly et al., 1987]). Quand elle est multiple, nous
l’appelons une multi-instanciation d’objet et le résultat correspond à la notion de
horde [Diday, 1991] composite [Conruyt et al., 1992].
166
Chapitre 6
Donc, pour constituer un modèle robuste de l’observable, il faut avoir en
mémoire l’ordre prédéterminé des différentes phases du processus de description
de l’observé (figure 6.5) :
1) instanciation d’un objet,
2) spécialisation d’un objet,
3) renseignements sur l’objet,
4) itération sur l’objet.
Ce fonctionnement se réfère à tout ce qui est observable sur un spécimen. Nous
préconisons que ce modèle soit structuré sur papier afin de trouver les objets et
les relations qu’ils entretiennent entre eux, ainsi que leurs attributs descriptifs et
les valeurs possibles. En effet, la philosophie de l’éditeur de modèle n’est pas
d’être un gestionnaire d’idées (les objets eux mêmes) que l’on relierait entre elles
sur un brouillon pour découvrir les relations entre objets. Ces objets traduisent
une réalité concrète avec un certain ordre dans le processus de description.
HyperQuest n’est pas destiné à construire un réseau sémantique avec des objets
et des relations de toute nature placés un peu au hasard. La finalité est ici de
construire un questionnaire “guide d’observation”, ce qui implique une démarche
analytique du plus général au plus particulier avec une organisation logique des
objets et des relations.
Chaque nœud de l’arbre (un objet) doit être apprécié selon son homogénéité de
description afin de ne décrire complètement qu’une seule chose à la fois avant de
passer à la description d’un autre objet. Une fois la structure préétablie, l’expert
aidé ou non du cogniticien va pouvoir saisir son modèle de l’observable à l’aide
des éditeurs d’objets, d’attributs et de valeurs.
Formalisation informatique des descriptions : HyperQuest
167
6.3.6 Edition d’un objet
Les vues globales ont pour principe de représenter le modèle graphiquement
sous la forme d’arbres. Elles permettent ainsi de visualiser non seulement tout ou
une partie des objets mais surtout les liens entre ces objets. Les vues locales,
quant à elles, permettent d'obtenir avec plus de précision des renseignements sur
chacun des objets. Une fenêtre entière sous forme de carte HyperCard leur est
consacrée (figure 6.6) qui est activée dès que l’utilisateur double-clique sur un
des objets de la vue globale :
Fig. 6.6 : Fenêtre d’édition de l’objet “corps” de Hyanonema
L'éditeur d'objet se décompose en quatre zones :
❶ Une première zone en haut à droite nous permet d’éditer le nom de l’objet.
❷ Une seconde zone dans le cadre à gauche donne tous les renseignements
concernant les caractéristiques de l'objet observable en cours d'édition :
- son statut (définition § 4.6.5.1),
- son genre (définition § 4.6.5.3.1),
- ses attributs (définition § 4.6.5.2).
❸ Une troisième zone à droite permet d’éditer les renseignements concernant
les relations de l'objet avec d'autres objets. Les boutons “dépendances” et
“spécialisations” permettent respectivement d’afficher les dépendances et
les spécialisations de l'objet. Le bouton “Autres” n’est là que pour indiquer
168
Chapitre 6
la possibilité ultérieure de définir ses propres relations. Cette fonctionnalité
n’existe pas dans cette version d’HyperQuest.
❹ Une quatrième zone en bas de la carte permet d'éditer les éléments des listes
d'attributs, de dépendances et de spécialisations et d’effectuer les
corrections nécessaires qui se répercuteront dans les vues globales. Ces
fonctionnalités s’intitulent “Déplacer” pour modifier la présentation des
objets et des attributs, “Supprimer” pour ôter un élément d’une liste, “Tout
supprimer” pour effacer la liste entière et enfin “Renommer” pour modifier
le nom d’un élément d’une liste. Toutes ces fonctionnalités sont décrites
dans le manuel d’utilisation d’HyperQuest [Conruyt & Dumont, 1993].
La carte d'édition d'un objet comprend aussi en plus des quatre zones
précédemment décrites des boutons permettant de naviguer dans l'éditeur de
modèle :
Donne la possibilité à l’expert de voir directement la
transformation de la définition conceptuelle de l’objet en une carte du
questionnaire telle qu’il sera généré par la suite. L’action de ce bouton est de
construire en parallèle à l’édition de l’objet la carte des entités hypertextes
correspondant uniquement à la vue de cet objet. Les figures 6.12 illustrent le
résultat de cette action pour l’objet “corps”. La carte peut alors être personnalisée
directement sans attendre la phase de génération automatique de tout le
questionnaire (§ 6.4.1). L’expert peut par exemple importer dans la carte un
dessin schématique du corps d’une éponge pour expliquer la différence entre les
macro constituants et les micro éléments ; il peut aussi indiquer les
caractéristiques du microscope (grossissement) dont il faudrait disposer pour
observer les micro éléments. Si l’expert possède le soucis d’expliquer par un
dessin et des messages les termes qu’il emploie, la robustesse du système n’en
sera que meilleure. La personnalisation des cartes du questionnaire se justifie
donc pleinement au niveau de l’acquisition de l’observable.
Annule toute action menée depuis l'accès à la carte. En effet, les
opérations de suppression, renommage, etc. ne seront pas prises en compte.
L’erreur est un droit fondamental de l’expert qui peut décider à tout moment de
modifier son modèle descriptif ou de ne pas tenir compte d’informations non
encore répertoriées (enregistrées dans la structure du modèle).
Par contre, le fait de cliquer ce bouton valide les informations saisies
dans la carte et retourne à l'une des vues globales de dépendances ou de
spécialisations.
Formalisation informatique des descriptions : HyperQuest
169
6.3.7 Edition d’un attribut
De même que pour les objets, chaque description d’attribut nécessite la mise à
jour d’informations sur une carte dont voici un exemple :
Fig. 6.7 : Fenêtre d’édition de l’attribut “forme” du corps de Hyalonema
On accède à cette carte par deux moyens : soit à partir des vues globales en
double-cliquant sur le nom d’un attribut ou bien à partir de la vue locale d’un
objet en double-cliquant aussi sur un attribut.
La carte “attribut” se décompose en trois zones :
❶ La première zone en haut à droite nous renseigne sur le nom de l'attribut.
❷ Une seconde zone nous indique le nom de l'objet auquel cet attribut est
rattaché. Ce champ comme celui du nom de l’attribut est inaccessible depuis
la carte d’édition d’un attribut (on ne peut modifier les noms de l’objet et de
l’attribut qu’à partir de la vue locale de l’objet). Cette caractéristique montre
que la vue locale d’un attribut est subordonnée à celle de son objet, comme
cela paraît souhaitable.
170
Chapitre 6
❸ Une troisième zone donne de multiples renseignements sur l'attribut :
Son type ... (§ 4.6.5.2.1)
Huit boutons permettent de définir le type d'un attribut. Six d'entre eux
sont exclusifs : un attribut est soit entier, soit nominal, soit commentaire,
soit réel, soit classifié, soit booléen.
Ses valeurs possibles ...(§ 4.6.5.2.2)
Si le type de l'attribut est nominal, commentaire, classifié ou booléen, les
valeurs possibles sont éditables dans des champs défilants accessibles
directement par simple clic (figure 6.7). Les espaces ne sont pas autorisés
dans la saisie de valeurs nominales, ils doivent être remplacés par des tirets
“-”. Les valeurs “oui” “non” sont mises par défaut dans le cas d'un attribut
booléen, dans les autres cas il s'agit du caractère “*” qui correspond à
n'importe quelle chaîne de caractères.
Dans le cas d'un type “classifié” un triangle noir apparaît à la base de la liste
des valeurs possibles ; il s'agit d'un bouton qui (figure 6.7), lorsque l'on
clique dessus, donne accès à la carte d'édition des valeurs classifiées
(§ 6.3.8).
Si le type de l'attribut est entier ou réel, les valeurs possibles sont saisies
sous la forme d'un intervalle de valeurs dont on précise l'unité. Ces trois
informations (valeur minimale, valeur maximale, unité) sont saisies dans
des champs d’édition :
Fig. 6.8 : Les champs d’édition d’un attribut numérique
Sa valeur par défaut ...(§ 4.6.5.2.3)
Il s'agit d'un champ dans lequel l'utilisateur est libre de saisir ce qu'il veut
comme valeur par défaut de l’attribut.
Son choix ...(§ 4.6.5.2.4)
Ce champ n'apparaît que lorsque l’un des types “nominal” ou “classifié” a
été choisi auparavant. Deux cases de saisie permettent de désigner le
Formalisation informatique des descriptions : HyperQuest
171
nombre minimal et maximal de choix possibles pour un choix multiple. Les
boutons “unique” et “multiple” sont exclusifs.
Sa question associée ...(§ 4.6.5.3.2)
La question associée à un attribut est saisie dans un champ défilant où
l'utilisateur est libre d'inscrire ce qu'il désire.
La carte d'édition d'un attribut comprend aussi en plus des trois zones
précédemment décrites des boutons permettant de naviguer dans l'éditeur de
modèle :
Comme pour un objet, cette action donne la possibilité à l’expert
de voir directement la transformation de la définition conceptuelle de l’attribut en
une carte du questionnaire. La figure 6.17 montre le résultat de cette action pour
l’attribut “forme” du corps de la Hyalema. La carte peut alors être personnalisée
en y ajoutant des dessins explicatifs (figure 6.26).
Permet l’annulation de toute action menée depuis l'accès à la carte.
Accède à l’édition de l’objet auquel est rattaché cet attribut.
Valide les informations saisies dans la carte et retourne à l'une des vues
globales de dépendances ou de spécialisations.
6.3.8 Edition des valeurs classifiées
Dans le cas d'un attribut classifié, la description des valeurs possibles nécessite
la mise à jour d'informations sur une carte dont voici un exemple dans une
classification à deux niveaux :
172
Chapitre 6
Fig. 6.9 : Fenêtre d’édition des valeurs classifiées de la “forme” du corps de Hyalonema
La carte “valeurs classifiées” se décompose en trois zones :
❶❷ une première et seconde zone indiquent respectivement le nom de
l'attribut auquel les valeurs se réfèrent et le nom de l'objet possédant
l'attribut. Ces champs sont inaccessibles en écriture depuis la carte
des valeurs classifiées.
❸
une troisième zone sous la forme d’un champ défilant permet la
saisie des valeurs classifiées selon un format d’indentation en
cascade utilisant les tabulations particulières “>”.
6.4 Le générateur automatique de questionnaire
Le générateur de questionnaire est un module HyperQuest qui permet de passer
de l’éditeur de modèle à l’éditeur de cas (le questionnaire). Il est un élément
charnière qui transforme un modèle de l’observable en un questionnaire
permettant d’éditer l’observé (cf. figure 2.4).
6.4.1 Principe de construction d'un questionnaire
Pour fabriquer le questionnaire, le générateur exploite la correspondance existant
entre les concepts de description (objets, attributs, valeurs) et les objets
hypertextes : cette correspondance est expliquée au § 6.4.2.
Le générateur de questionnaire est formé d’une seule pile HyperCard :
Formalisation informatique des descriptions : HyperQuest
173
Fig. 6.10 : La pile de génération du questionnaire
Cette pile sert de moule à la fabrication d’un questionnaire <Questionnaire>. Elle
ne contient en principe qu’une seule carte au départ (celle de la figure 6.10). La
pile est d’abord dupliquée et prend le nom du domaine d’application (par
exemple <Questionnaire Hyalonema>). La copie est ensuite développée
automatiquement par des procédures hypertextes (programmées en HyperTalk)
qui font s’accroître le nombre de cartes d’autant qu'il y a d'objets, d'attributs et
de valeurs hiérarchisées décrits dans le domaine descriptif.
Les cartes générées du questionnaire portent les noms <Objet> pour les objets,
<Attribut(Objet)> pour les attributs, <Valeur(Attribut)> pour les valeurs
classifiées (1er niveau), <SousValeur(Valeur)> pour les valeurs classifiées (2ème
niveau), etc..
La durée de création de la pile <Questionnaire> dépend du nombre d’objets,
d’attributs et de valeurs à traiter et du type d’ordinateur. A titre d’indication, il
faut 6 mn à HyperQuest sur un Macintosh PowerBook 170 avec 8 Mo de
mémoire vive pour créer un questionnaire de 74 cartes comprenant 25 objets, 40
attributs et 98 valeurs. Ce temps correspond à la création de toutes les entités
hypertextes (cartes, boutons, champs) de la pile du questionnaire.
Néanmoins, si des objets ou des attributs ont été visualisés auparavant dans
l’éditeur de modèle, le générateur de questionnaire a déjà construit la carte
correspondante du questionnaire dans sa propre pile. De ce fait, la pile possède
déjà un certain nombre de cartes prêtes pour le questionnaire. Au moment de la
création en série de toutes les cartes par le choix “Créer le questionnaire”, le
générateur de questionnaire possède donc déjà certaines cartes d’objets,
d’attributs ou de valeurs classifiées qu'il n'a pas besoin de fabriquer.
174
Chapitre 6
Une fois le questionnaire du domaine engendré, le générateur de questionnaire
reprend sa taille initiale (une carte) au moment de la fermeture de la pile.
6.4.2 Entités conceptuelles et hypertextes
Pour pouvoir construire automatiquement un questionnaire à partir du modèle
descriptif, il faut définir les transformations possibles entre les entités
conceptuelles et les entités hypertextes.
Comme nous l’avons déjà dit au chapitre 3, les connaissances observables sont
représentées dans un formalisme à base de frames (§ 4.5). Le formalisme
informatique que nous utilisons pour représenter le modèle descriptif est
différent du formalisme mathématique défini au chapitre 5. Ce dernier s’intéresse
plus aux données elles-mêmes dont il veut formaliser la complexité (objets
booléens, modaux, probabilistes, possibilistes, etc.). Or, si la complexité des
données est une chose à ne pas négliger, nous souhaitons néanmoins bien
distinguer la représentation de l’observable (le modèle descriptif) de la
représentation de l’observé (les cas) afin d’assurer la cohérence du dernier par
rapport au premier.
Par exemple, les règles chez les objets munis de méthodes et de propriétés
(§ 5.4) ne font pas partie de l’observé mais de l’observable. Elles interviennent
lors de l’établissement des descriptions pour maintenir leur cohérence, mais
n’ont plus lieu d’être indiquées une fois celle-ci assurée.
D’autre part, nous avons choisi de nous placer dans un cadre d’objets booléens2
plutôt que dans celui des objets modaux. Ce choix nous semble plus proche de la
pratique concrète pour représenter des descriptions de spécimens : en les
observant, l’expert sait décider si oui ou non ils appartiennent à telle classe, ou
encore si telle instance d’un composant de l’individu appartient à tel objet.
L’expert n’a pas d’état d’âme en décrivant des individus et ne perçoit pas bien
l’intérêt de pondérer ses choix à ce moment par des incertitudes. Cette manière
de décrire avec des modalités telles que couleur(corolle) = souvent rouge,
rarement blanche correspond plus à l’approche par “descriptions” de concepts
[Vignes, 1991], [Lebbe, 1991]. Cette approche est à nos yeux une manière de
faire des descriptions potentielles (ce n’est pas de l’observé qui est décrit mais de
l’observable qui est défini).
Pour représenter l’observable, nous nous baserons donc sur les langages de
frames dont l’opérationnalité a déjà été largement éprouvée avec KRL [Bobrow
& Winograd, 1977], FRL [Roberts & Goldstein, 1977], SHIRKA
[Rechenmann, 1985], [Aguirre, 1989] ou KATE [Manago, 1988].
2
Objets dont la valeur de vérité est soit vraie soit fausse.
Formalisation informatique des descriptions : HyperQuest
175
Le formalisme informatique est écrit en LCRC ou CASUEL. Il utilise des mots
clé tels que “defObject”, “defSlot” et “defValue” qui permettent de repérer les
entités conceptuelles et les mots “subpart” et “spec” pour définir les relations
entre objets. Cette connaissance modulaire est écrite selon une syntaxe BNF
(voir annexe 4), puis est interprétée dans HyperQuest pour être convertie en
entités hypertextes au moment de la création du questionnaire. Les
correspondances définies sont les suivantes :
modèle descriptif ----------------->
objet -------------------------------->
attributs d'un objet---------------->
attribut de l'objet------------------>
composants d'un objet ----------->
spécialisations d’un objet -------->
valeurs d'attribut qualitatif ------>
valeurs d'attribut numérique ---->
valeurs d'attribut commentaire -->
règles et contraintes -------------->
pile <Questionnaire>
carte de la pile <Questionnaire>
champs de la carte <Objet>
item (ligne) dans le champs de carte <Objet>
boutons de la carte <Objet>
boutons de la carte <Spécialisations(Objet)>
boutons de la carte <Attribut(Objet)>
boutons curseur de la carte <Attribut(Objet)>
boite de dialogue de carte <Attribut(Objet)>
scripts liés aux champs et boutons de carte.
Les transpositions définies ci-dessus sont valables pour n’importe quel type
d’application, ce qui rend le générateur de questionnaire indépendant du domaine
étudié (généricité inter-applications).
De plus, chaque entité hypertexte (cartes, boutons et champs) est porteuse d’un
message prédéfini qui conservera un même type d’action dans le questionnaire
(par exemple une procédure de navigation). Ces message sont constitués une
fois pour toute et sont reproduits à chaque création d’une instance d’un objet
hypertexte (généricité intra-application).
Nous allons maintenant illustrer ces correspondances à l’aide du questionnaire
généré pour le domaine des Hyalonema.
176
Chapitre 6
6.5 L’éditeur de cas : le questionnaire3
Dans le paragraphe précédent, nous avons défini les liens entre entités
conceptuelles et entités hypertextes. Ce choix a été fait à la suite de nombreuses
études sur le terrain pour proposer un questionnaire convivial et ergonomique
aux utilisateurs dans le domaine de la biologie. Nous sommes convaincus que
ces qualités ne peuvent qu'améliorer la robustesse des descriptions à acquérir.
Nous exposons donc dans cette partie de la thèse les caractéristiques et
fonctionnalités attendues d'un bon questionnaire d'acquisition d'exemples pour
l'apprentissage.
Caractéristiques
6.5.1 Représentation de l’individu
L’individu observable est représenté dans le modèle descriptif à la racine de
l’arbre de composition. Il est censé identifier le domaine. Le modèle descriptif
est donc assimilable à la pile du questionnaire dont la première carte représente
l’individu. On accède directement à cette carte en entrant dans le questionnaire :
Fig. 6.11 : La première carte de la pile du Questionnaire Hyalonema
3
Cette partie reprend certaines informations contenues dans [Conruyt & Dumont, 1993].
Formalisation informatique des descriptions : HyperQuest
177
6.5.2 Représentation des objets de l’individu
6.5.2.1 Un objet = une carte
Il y a autant de cartes dans la pile que d’objets à décrire. Chaque carte (objet)
possède ses propres caractéristiques et des relations avec d'autres cartes de la
pile. Les caractéristiques d’un objet donné apparaissent dans un champs de la
carte alors que les liens relationnels sont au niveau des boutons de cette carte.
L'exemple suivant montre la correspondance entre la description au format
LCRC de l'objet “corps” de l'éponge marine et la carte de la pile du
questionnaire (figure 6.12) :
(defobject corps
(gender ms)
(subpart macro-constituants micro-elements)
(slot forme taille consistance couleur))
Fig. 6.12 : Cartes des caractéristiques et des composants de l'objet “corps” de Hyalonema
178
Chapitre 6
Cet exemple met en évidence les points suivants : pour renseigner quel est l'objet
courant, un titre est construit automatiquement à partir de l'information sur
l’objet, son genre (ms pour “masculin-singulier”) et sur le type de description
locale (caractéristiques, composants ou spécialisations).
Ici, le corps est une dépendance de l'objet “description”. Par navigation, on peut
l’atteindre en cliquant sur la flèche incurvée de gauche (l'incurvation indique une
remontée vers la racine à gauche de l’arbre des dépendances). Le message
suivant est déclenché et on aboutit à la carte <Description> :
on mouseUp
get card field "Surpartie"
visual effect scroll down fast
go to cd it
end mouseUp
Les caractéristiques (slot) et les dépendances de l'objet (subpart) sont
représentées par des entités hypertextes (champs et boutons). Elles sont placées
sur la même carte du fait qu’il s’agit de la description locale d’un objet, et on y
accède en cliquant sur la flèche triangulaire de droite. On bascule ainsi des
caractéristiques de l'objet à ses composants sur la même carte et réciproquement.
Cette présentation des objets avec deux volets (caractéristiques et relations) est à
rapprocher avec celle de la carte d’édition des objets dans le modèle descriptif
(figure 6.6).
Le personnage en bas à droite est un coursier qui emmène sous son bras la
description du cas courant afin de procéder à un enregistrement dans la base de
cas (pour la classification) ou bien à une consultation du système expert (pour
l'identification d'une nouvelle observation).
Les deux autres boutons sont des fonctionnalités de navigation et de
personnalisation des descriptions (voir § 6.5.10).
6.5.2.2 Représentation des statuts possibles d'un objet
Les statuts possibles sont les propriétés d’un objet observable telles que la
cardinalité et la multiplicité de l’objet (voir § 4.6.5.1).
Pour la cardinalité, considérons l'objet “cone-central” de l'éponge :
(defobject cone-central
(part-of face-exhalante)
(cardinal 0 1)
(...))
Formalisation informatique des descriptions : HyperQuest
179
La cardinalité de cet objet indique qu'il peut ne pas y avoir présence de l'objet
(cardinal = 0) et que s'il est présent, alors il y en a un seul (cardinal = 1). Par
défaut, on n'écrit pas dans les fichiers au format LCRC la possibilité pour un
objet d'être inconnu car c’est le statut qui est défini pour tous les objets du
modèle descriptif. Le premier chiffre suivant le mot clé “cardinal” indique la
cardinalité minimale, le second chiffre étant la cardinalité maximale de l’objet.
Au niveau du questionnaire, la représentation des statuts possibles d'un objet se
traduit par des boutons sélecteurs d'état comme on peut le voir sur la figure 6.13
suivante :
Fig. 6.13 : Représentation des différents états d'un objet dans le questionnaire
L'utilisateur doit cliquer sur le bouton précédant le nom de l'objet à décrire pour
indiquer le statut de cet objet :
“+” pour la présence, “-” pour l'absence, “?” pour l'inconnu.
En ce qui concerne la multiplicité d’un objet, on peut se reporter au § 6.5.5 sur la
représentation des multi-instanciations d’objets.
6.5.3 Représentation des attributs d’un objet
Pour donner une valeur à l’attribut d’un objet, on clique sur le nom de l'attribut
dans le champ des caractéristiques de l’objet (figure 6.12), ce qui a pour effet
d'accéder à une autre carte intitulée <Attribut(Objet)>. Celle-ci donne la liste des
valeurs possibles pour cet attribut. Les attributs sont définis en LCRC dans un
fichier séparé des objets et possèdent des types différents (qualitatifs,
numériques, commentaire, classifié).
180
Chapitre 6
6.5.3.1 Attributs qualitatifs
Prenons la couleur du corps de l'éponge dont voici la définition en LCRC :
(defslot couleur corps nominal
(range blanchatre grisatre autre)
(default blanchatre)
(question "Quelle est la couleur du corps?"))
Cet attribut sur le corps de l’éponge est de type nominal. Les valeurs possibles
sont indiquées dans le “range” ou domaine d’observation (§ 4.6.5.2.2).
L’utilisateur sera amené à faire un choix unique (§ 4.6.5.2.4). Le nombre de
choix possibles est unique par défaut, sinon il serait précisé dans la définition de
l’objet. La question posée pour la consultation apparaît dans le champ “question”
(§ 4.6.5.3.2).
On remarque aussi qu'il existe une valeur par défaut indiquée dans le modèle
descriptif pour la couleur (§ 4.6.5.2.3). Cette valeur mentionnée par l'expert est
la plus fréquemment observée mais l'utilisateur peut néanmoins spécifier une
autre couleur pour un spécimen donné. Lors de la construction du questionnaire,
cette valeur par défaut vient s'ajouter automatiquement comme valeur de la
couleur (figure 6.12).
La transformation de cette définition donne la carte de la figure 6.14 :
Fig. 6.14 : Correspondance entre un attribut qualitatif et la carte <couleur(corps)>
On remarque dans cette carte l'apparition du bouton “?”. Il s’ajoute de manière
automatique lors de la génération du questionnaire et indique la possibilité pour
l'attribut d'avoir comme réponse de l’utilisateur : “je ne sais pas” ou “inconnu”.
Remarque : le choix de la réponse “autre” appelle un commentaire en texte libre
(voir § 6.5.3.3).
Formalisation informatique des descriptions : HyperQuest
181
6.5.3.2 Attributs numériques
On peut prendre l'exemple de la longueur d'un micro élément de l'éponge (les
“tignules”) dont voici la description au format LCRC et la correspondance dans
le questionnaire (figure 6.15) :
(defslot longueur tignules real Interval
(range 1.0 20.0)
(unit mm)
(question "Quelle est la longueur des tignules ?"))
Fig. 6.15 : Correspondance entre un attribut numérique et la carte <longueur(tignules)>
Ici, l'attribut numérique est un réel mais il pourrait aussi s'agir d'un entier
naturel. Dans le cas d'une valeur comprise dans un intervalle, l'utilisateur
dispose d'une échelle munie d'un minimum et d'un maximum. Cette échelle est
logarithmique. L'utilisateur peut aussi indiquer la précision de ses mesures par le
nombre de chiffres significatifs (1, 2 ou 3 chiffres significatifs). On recopie
l'unité de mesure de la valeur numérique dans le champ “unit”.
6.5.3.3 Attributs commentaires
Un attribut commentaire (ou chaine de caractères) est une information
supplémentaire sur le cas à décrire qui ne sera pas prise en compte lors de
l'induction ou du raisonnement par cas.
En effet, l'apprentissage de règles de décisions se fait “en monde fermé” c'est-àdire lorsque l'on a prédéfini tous les objets, attributs et valeurs observables. Les
attributs commentaires sont des caractéristiques d'un questionnaire “ouvert” sur
lesquels on ne peut fixer à l'avance les réponses possibles. C'est une
information utile pour replacer les cas dans leur contexte. L'expert dispose ainsi
d'un moyen de contrôle des réponses fournies. Il pourra par la suite redéfinir de
nouveaux descripteurs intégrant la variation des réponses des utilisateurs.
182
Chapitre 6
Prenons comme exemple la localité à laquelle appartient un individu :
(defslot localite contexte comment
(default ?)
(string "localité")
(question "Origine du Specimen?"))
La transformation de cet attribut donne la carte suivante (figure 6.16) avec une
boite de dialogue dans laquelle l'utilisateur peut rentrer sa valeur :
Fig. 6.16 : Correspondance entre un attribut commentaire et la carte <localité(contexte)>
6.5.3.4 Attributs classifiés
Certaines valeurs peuvent être structurées (voir § 4.6.5.2.2) selon une hiérarchie
de classification (taxonomie de valeurs). Prenons l'exemple de la forme du corps
de l'éponge dont les valeurs sont représentées sous la forme d'une hiérarchie à
deux niveaux. Voici une description au format CASUEL d'un tel attribut :
defslot forme of corps
type corps_forme_type;
cardinal [1:2];
french_question "Quelle est la forme du corps de l'éponge ?".
deftype corps_forme_type
a_kind_of taxonomy;
range [forme
[subcylindrique [en-bouteille cylindroïde]]
[renflee [en-flute en-corolle piriforme ovoide bulbiforme]]
[evasee [en-tronc-de-cone en-cloche en-cratere en-cone entrompette en-cornet]]
[aplatie [en-lame-repliée en-galette]]
[mal-definie [irrégulier amyboïde]]].
Formalisation informatique des descriptions : HyperQuest
183
A un premier niveau, la forme du corps de l'éponge peut prendre comme valeurs
“subcylindrique”, “renflée”, “évasée”, “aplatie” et “mal-définie”. Le second
niveau est constitué des spécialisations de chacune de ces valeurs. La valeur
“renflée” peut être précisée pour sa part en 5 sous-valeurs : “en-flûte”, “encorolle”, “piriforme”, “ovoïde” et “bulbiforme”.
La cardinalité indique le nombre de choix possibles, l'utilisateur est limité ici à 2
valeurs au maximum. Voici la carte du questionnaire correspondant à la
définition de la valeur “renflée” (figure 6.17) :
Fig. 6.17 : Les sous-valeurs de la carte <renflée(forme)>
Lorsque la cardinalité d’un attribut est supérieure à 1, on construit le bouton
“Ok” pour permettre la validation des choix de l’utilisateur. Sur la figure cidessus, le descripteur a choisi les valeurs “en-corolle” et “ovoïde” pour indiquer
le doute sur la forme renflée du corps de son spécimen. Il lui faut maintenant
cliquer sur le bouton “Ok” pour retourner au niveau supérieur de la taxonomie
des valeurs.
Rappel : un choix multiple traduit une imprécision et non pas une présence
simultanée (voir § 4.6.5.2.4).
6.5.4 Représentation des spécialisations d’un objet
Outre la relation de dépendance entre objets, il y a les relations de parenté ou de
recouvrement qui indiquent une hiérarchie entre deux objets dont l'un est plus
général que l'autre. Cela se représente par une relation de spécialisation : un objet
se spécialise en un “sous-objet”. Par exemple, dans le système TOM, les objets
“tache” et “nécrose” sont des spécialisations de l'objet “symptôme sur folioles”.
L'intérêt de représenter cette connaissance des liens entre certains objets est
double :
184
Chapitre 6
1) il permet de faire hériter les propriétés des objets les plus généraux vers les
objets les plus spécifiques. Ainsi, on ne définit les propriétés spécifiques à
chacun des objets qu'à leur niveau, les propriétés communes étant mises en
facteur au niveau d'un objet plus général. Une procédure se charge d'enrichir
les spécialisations. Prenons l’exemple de la figure 6.1 ou la description du
symptôme sur folioles peut être précisée par un objet de l’arbre de
spécialisation :
(defobject symptome-sur-folioles
(part-of folioles)
(gender fp)
(subobject taches-ou-plages-ou-necroses fletrissement anomalie-de-coloration)
(string “symptôme sur folioles”)
(slots
repartition-sur-la-plante repartition-sur-la-feuille))
Fig. 6.18 : Représentation du lien de spécialisation de l'objet “symptôme sur folioles”
Le lien de spécialisation est symbolisé par une flèche verticale descendante dans
le questionnaire (figure 6.18). En cliquant sur cette flèche, on accède à une carte
intitulée <Specialisations(Objet)> (figure 6.19) qui permet de préciser l'objet
générique.
Cette carte est différente de la carte parente, ce qui donne la possibilité à
l'utilisateur d'associer des dessins illustrant les sous objets sans interférer avec
les illustrations des composants de l'objet.
Formalisation informatique des descriptions : HyperQuest
185
Fig. 6.19 : Vue de la carte <spécialisations(symptome-sur-foliole)>
L'utilisateur fait son choix parmi la liste des sous objets. Prenons l'objet “taches
ou plages ou nécroses” décrit de la manière suivante au format LCRC :
(defobject taches-ou-plages-ou-necroses
(part-of folioles)
(gender fp)
(superobject symptome-sur-folioles)
(subobject taches-ou-plages necroses)
(string “taches ou plages ou nécroses”)
(slots
localisation-sur-foliole proportion-sur-foliole repartition-sur-foliole
jaunissement-en-pourtour toucher nombre variabilite forme relief
nombre confluence zonations mesure limites couleur))
On remarque dans cette définition que l'on n'a introduit que les attributs propres
à l’objet. La transformation de cette description du modèle donne la carte
suivante du questionnaire (figure 6.20) :
Fig. 6.20 : Représentation de la carte de l'objet “taches ou plages ou nécroses”
186
Chapitre 6
L’objet hérite des attributs du symptôme sur folioles grâce au lien de
spécialisation : il en est ainsi pour les attributs “répartition sur la plante” et
“répartition sur la feuille”. En continuant à spécialiser le symptôme, on en
viendrait à préciser plus encore sa nature en choisissant un des concepts de la
disjonction (figure 6.21). Ce faisant, on est amené à restreindre le domaine
d’observation de certains attributs ou à introduire de nouveaux attributs plus
spécifiques à l’objet spécialisant.
Fig. 6.21 : Vue de la carte <spécialisations(taches-ou-plages-ou-necroses)>
Ce premier intérêt met l'accent sur l'action elle même d'héritage qui permet de
transférer une information plus générale à un objet particulier. C'est une vision
descendante de la spécialisation, telle qu'elle est comprise par les informaticiens
[Manago, 1988].
2) A l'inverse, pour le biologiste, la spécialisation se traduit par le remplacement
de caractéristiques plus générales par des caractéristiques plus particulières,
c'est-à-dire par une substitution (vision ascendante). Ainsi, on passe de quelque
chose de plus général à quelque chose de plus particulier. L'héritage n'apparait
que comme une conséquence de la spécialisation, qui consiste essentiellement en
une détermination de l'objet selon une classification conceptuelle (on reste dans
l'observable).
6.5.5 Représentation des multi-instanciations d’un objet
La possibilité de décrire plusieurs sortes d'un même objet a été décrite au
§ 4.6.7. Prenons l'exemple de l'objet “microxyhexactines” du domaine des
Hyalonema qui a été défini avec une multiplicité de deux. Cela signifie qu'il est
possible de décrire jusqu'à deux fois cet objet pour un même cas. Lorsque l'on
clique sur l'objet “microxyhexactines” dans la fenêtre “Composants des micro
éléments de la Hyalonema”, la carte suivante apparaît (figure 6.22) :
Formalisation informatique des descriptions : HyperQuest
187
Fig. 6.22 : Vue de la carte des instances multiples de l'objet “mycroxyhexactines”
Elle a autant de boutons que l'on peut décrire de sortes de microxyhexactines (ici
deux boutons). Chaque label de bouton est suivi d'un numéro :
(1) pour la première description de l'objet,
(2) pour la seconde.
Décrire l'objet microxyhexactine(2) avant microxyhexactine(1) n'a aucun sens
pour la description de différentes sortes d'un même objet : on décrit toujours une
première sorte avant d'en décrire une seconde ! L'ordre que l'on choisit de
suivre n'a aucune signification propre.
Quel que soit l'objet décrit, microxyhexactine(1) ou microxyhexactine(2), la
carte à renseigner est identique. L'utilisateur peut itérer des descriptions
différentes du même objet en donnant des valeurs différentes aux attributs. Le
passage à la description d'autres sortes d'un même objet s'effectue en cliquant
sur la flèche incurvée vers le bas à gauche (figure 6.23) :
Fig. 6.23 : Description de la première sorte d'objet “mycroxyhexactines”
188
Chapitre 6
6.5.6 Représentation des règles entre objets
Nous avons déjà mentionné les dépendances possibles entre les différents
caractères composant une description de spécimen (§ 4.6.8).
Nous prendrons un exemple qui permet de visualiser la représentation d'une
règle localement sur un même objet : soit la description des orifices situés sur la
face exhalante d'une éponge, dans laquelle le slot nombre a pour valeurs
observables {unique, quadruple, multiple} :
(defobject orifices
(part-of
face-exhalante)
(gender
mp)
(slots nombre (if (nombre unique quadruple) then
(HideSlots dimensions repartition)
else? (SetDefaultValues (dimensions ?) (repartition ?)))
dimensions
repartition))
Cette définition d'objet comporte une règle écrite au format LCRC. C'est une
connaissance de bon sens indiquée par l'expert lors de la création de l'objet :
Si le nombre d'orifices est unique ou quadruple, alors il ne faut pas s'intéresser à
la description des attributs “dimensions” et “répartition” des orifices (mot clé
“HideSlots”).
Cette règle entre une valeur d'attribut et d'autres attributs du même objet est
représentée de la manière suivante dans le questionnaire (figure 6.24) :
Fig. 6.24 : Dépendance entre une valeur d'attribut et d'autres attributs
En effet, la dimension des orifices n'est plus pertinente dans ce contexte
(information fournie par l'expert) et la répartition n'est pas observable
Formalisation informatique des descriptions : HyperQuest
189
(information de bon sens). L'utilisateur qui répond “unique” au nombre
d'orifices ne peut donc logiquement pas renseigner ces deux attributs (en
italique).
La règle énonce aussi que si la valeur du nombre des orifices est “inconnu” alors
les valeurs des attributs “dimensions” et “répartition” sont aussi inconnues (mot
clé “SetDefaultValues”). Cette règle est activée automatiquement dans le
questionnaire par un changement d'état des attributs dépendants (passage de la
forme cachée en italique à la forme active en gras) et la mise à jour automatique
des valeurs “inconnu” pour les attributs dépendants (figure 6.25) :
Fig. 6.25 : Dépendance entre une valeur d'attribut et d'autres valeurs d'attributs
Toutes ces règles font partie de l'observable, elle permettent d'assurer la
cohérence de la procédure de description et participent donc ainsi à la robustesse
globale du système.
6.5.7 Personnalisation des objets
L’intérêt d’utiliser un questionnaire sous Hypercard est que chaque carte
associée à un objet ou à un attribut peut être personnalisée en utilisant les
fonctionnalités associées de dessin. En effet, il est très facile d’enrichir la carte
par des images dessinées ou collées, et dont certaines zones représentent d’autres
objets à décrire (des composants par exemple). On peut aussi illustrer des
valeurs d’attribut par des schémas explicatifs. Ensuite, on peut recouvrir ces
zones de l’image par des boutons multi-formes et transparents qui permettront de
sélectionner l’objet ou la valeur visée de manière équivalente à la sélection du
bouton nommé.
190
Chapitre 6
La figure 6.26 suivante illustre la personnalisation de la carte <renflée(forme)>
du corps de la Hyalonema :
Fig. 6.26 : Association de dessins pour illustrer des valeurs d'attributs
La personnalisation des cartes du questionnaire est un facteur ergonomique
important pour l'aide à la détermination des objets. Le rôle de l'expert est ici
d'illustrer l'observable, c'est-à-dire son propre vocabulaire de description pour
le rendre accessible aux autres utilisateurs sans interprétation lors des
consultations futures du questionnaire. C'est un facteur non négligeable de la
robustesse puisqu'il dissocie l'exactitude des choix de la compréhension d'un
vocabulaire.
Les changements de personnalisation sont sauvés dans une autre pile (voir
§ 6.5.9.11). La sauvegarde est utile pour remettre à jour une nouvelle pile avec
les anciennes images ou dessins. En effet, dans le cas ou l'utilisateur désire
modifier le modèle descriptif (rajouter un nouvel objet observable par exemple),
il faudra générer un nouveau questionnaire du fait que sa structure est modifiée.
Cette fonctionnalité de sauvegarde est importante dans la mesure où il pourrait y
avoir plusieurs versions de modèles descriptifs élaborés par l'expert, et par
conséquent plusieurs questionnaires intermédiaires à construire. Néanmoins, il
est préférable de ne fabriquer qu'un seul modèle descriptif complet dès le départ
pour éviter toutes les remises à jour (le questionnaire et les cas).
Remarque : la limite actuelle est qu'HyperCard ne connaît que le noir et le blanc
(mode Paint). Un autre moyen de personnaliser la pile du questionnaire peut être
d'associer une photo ou une séquence vidéo en couleur à certaines cartes. Cette
fonctionnalité peut être intégrée à HyperCard au travers de commandes externes
capables d'afficher dans une fenêtre spéciale une image au format PICT ou une
séquence filmée QuickTime.
Formalisation informatique des descriptions : HyperQuest
191
Fonctionnalités
Le questionnaire est une pile HyperCard générée à partir d'HyperQuest. Il
permet d'éditer des descriptions pour les trois objectifs suivants :
❶ Rentrer de nouveaux cas dans la base de cas,
❷ Consulter le système expert engendré par KATE,
❸ Consulter le système de raisonnement par cas avec CaseWork.
Outre le fait que le questionnaire est un éditeur de cas, des fonctionnalités de
personnalisation et de navigation lui sont attachées pour en faire un véritable
guide d'observation.
Deux menus “Cas” et “Personnaliser” traitent respectivement de la gestion des
cas et de la personnalisation des cartes d'édition des cas dans le questionnaire
(figure 6.27) :
Fig. 6.27 : Les menus "Cas" et "Personnaliser"
De plus, chaque carte du questionnaire possède les trois boutons suivants : le
bouton “voir une image”, le bouton “naviguer” et le bouton “coursier”.
6.5.8 Le menu “Cas”
Nous voici maintenant dans la phase d'utilisation du questionnaire généré pour
éditer des descriptions observées. Deux natures de descriptions d'individus sont
produites :
❶ Ce sont des cas à enregistrer dans la base de cas si elles contiennent une
détermination associée, c'est-à-dire une valeur au niveau de la classe de
détermination qui n'est pas inconnue.
192
Chapitre 6
❷ Ce sont des observations si la classe est inconnue. Ces observations
peuvent être stockées dans la base de cas en attendant d'être classifiées mais
ne peuvent pas être traitées par KATE et CaseWork sous cette forme.
6.5.8.1 Le choix “Nouveau”
Il permet de saisir un nouveau cas en initialisant le modèle descriptif : en effet,
l'idée est de partir de l'objet observable situé à la racine du modèle et représenté
par une carte (de nom <Hyalonema> dans notre application).
“Nouveau” instancie cette carte, c'est-à-dire en effectue une copie (cf. § 6.4.1).
La nouvelle carte instanciée possède le même nom plus un numéro d'instance
accolé (par exemple “Hyalonema1”). Elle devient ainsi un objet observé4 du
domaine que l'on peut décrire, ce n'est plus un concept abstrait.
Une fois le modèle initialisé à la racine, le cas existe et l'utilisateur n'a plus qu'à
compléter sa description en naviguant pour instancier ses composants. Eux aussi
sont des objets observables représentés par un état nul (le carré à gauche du
bouton <composant> est vide). Dès que l'utilisateur clique dans un des boutons
des composants, l'objet se met à exister : la carte correspondante est instanciée et
le carré représentant son statut prend la valeur “+” (voir section 6.5.2.2).
Au fur et à mesure de la navigation, la pile du questionnaire s’accroît donc en
nombre de cartes, relativement au nombre d'objets observés pour l'individu
décrit. Ce processus est valable aussi bien pour les objets “composites” que pour
les objets “spécialisants”.
Outre la navigation entre les objets, on peut s'arrêter au niveau de la carte de
l'objet observé et le décrire avec ses caractéristiques locales. A ce moment, on va
renseigner les attributs situés dans le champ de la carte de l'objet observé. Il
suffit pour cela de basculer au niveau des caractéristiques de l'objet courant et de
cliquer l'un des items du champs associé. On accède ainsi à la carte
<Attribut(Objet)> qui permet de renseigner la valeur que doit prendre l'attribut
sélectionné.
Le schéma de la figure 6.28 illustre la description locale de l'objet observé
“Ombrelles1” :
4
Très incomplètement pour l'instant !
Formalisation informatique des descriptions : HyperQuest
Fig. 6.28 : Le processus de description locale d'un objet5
5
On peut noter ici l'intérêt d'illustrer l'allongement des ombrelles par un dessin explicatif !
193
194
Chapitre 6
Notons qu'il n'y a pas de copie d'instanciation des cartes associées aux attributs
d'un objet : ces cartes sont mises à jour à chaque fois que l'on y accède selon
que l'attribut possède ou non une valeur dans le champ. Elles sont “nettoyées”
de la valeur choisie à chaque sortie.
Lorsque la description du nouveau cas est terminée, il faut alors le sauvegarder
soit pour la base de cas (voir § 6.5.8.4), soit pour la consultation du système
expert (voir § 6.5.8.5).
6.5.8.2 Le choix “Dernier”
Après enregistrement et fermeture du questionnaire, la pile conserve néanmoins
la représentation des cartes instanciées du dernier cas.
Ce choix d'implantation est justifié par la pratique d'acquisition des
descriptions : en effet, on s'aperçoit que le fait de renseigner un questionnaire
d'acquisition d'exemples est en général une opération répétitive, longue et
fastidieuse. L'utilisateur doit s'organiser pour rentrer les cas dans un ordre ou
les spécimens à décrire sont similaires au niveau des objets à renseigner. Il est
alors plus efficace en terme de temps de repartir de la description du dernier cas
pour en renseigner un nouveau puis de modifier les quelques caractéristiques
divergentes. Cette pratique est celle qui a été suivie lors de l'acquisition des
descriptions de Hyalonema : on peut observer à l'annexe 3 les séries de cas
décrits les uns à la suite des autres et concernant un même Sous-Genre
(Cyliconema par exemple).
Il faut faire attention néanmoins à cette facilité qui peut conduire à des
descriptions inappropriées par omission de la mise à jour de certains caractères
du dernier cas.
Remarque : les cas dérivés les uns des autres peuvent être rapprochés des
nuances critiques [Winston, 1977] qui sont très importantes dans l'isolement des
caractéristiques définissant un concept lors de la discrimination à partir
d'exemples.
6.5.8.3 Le choix “Ancien ...”
Le questionnaire est un éditeur de cas. Cette possibilité d'édition d'un ancien cas
est nécessaire pour la gestion de la base de cas. Elle est utilisée lorsque
l'utilisateur désire modifier un ancien cas ou bien se servir de lui comme modèle
pour en construire un nouveau (voir paragraphe précédent). L'opération est
néanmoins plus coûteuse lorsqu'il s'agit d'importer un ancien cas, du fait que la
pile du questionnaire doit d'abord détruire toutes les cartes instanciées
correspondant aux derniers objets observés, puis reconstruire l'ancien cas à
Formalisation informatique des descriptions : HyperQuest
195
partir de la description stockée dans la base. Le questionnaire demande quel est
l'ancien cas à importer puis reconstruit automatiquement les cartes correspondant
aux objets observés dans l'ancien cas.
6.5.8.4 Le choix “Enregistrer”
Lorsque l'utilisateur a terminé sa description, l'une des possibilités est
d'enregistrer ce cas dans la base, les deux autres choix étant de quitter sans
enregistrer ou bien de consulter l'expert. Dans le cas d'un enregistrement, le
message “Attendez quelques instants..., je récupère la description de votre cas”
s'affiche dans la boite d'information6, puis le cas courant vient s'afficher dans
un champ (figure 6.29) pour que l'utilisateur puisse vérifier lui même
l'exactitude de sa description :
Fig. 6.29 : La description du cas en LCRC à enregistrer
Nous pensons que la visualisation du cas selon une formule lisible est important
avant son enregistrement effectif. Si l'utilisateur s'aperçoit d'une erreur de
description, il peut encore la corriger en cliquant sur le bouton “Corriger” qui le
fait revenir à la dernière carte qu'il avait quittée pour enregistrer son cas. Sinon,
l'utilisateur satisfait de sa description clique sur le bouton “Ok” pour permettre
l'enregistrement de son cas dans la base.
Il serait bon aussi de présenter une description sous une forme proche du
langage naturel comme cela est préconisé dans le schéma global de notre
méthodologie (§ 2.4). Il s'agit là d'un module non développé actuellement mais
qui pourrait servir à l'édition de descriptions “naturelles” utiles aux biologistes
pour leurs monographies. Pour l'heure, l'utilisateur peut néanmoins imprimer la
6
Ces messages ne sont pas superflus car ils instaurent un dialogue avec l'utilisateur, ce qui
apporte une certaine convivialité à la procédure et évite les fausses manoeuvres de l'utilisateur
(il sait qu'il doit patienter !).
196
Chapitre 6
description du cas au format LCRC ci-dessus en utilisant la fonctionnalité
“Imprimer un champ...” d'HyperCard.
Il est recommandé d'enregistrer dans la base de cas un cas complet, c'est-à-dire
possédant le nom de la classe attachée à la description. Néanmoins, l'utilisateur
peut enregistrer une observation puis la compléter plus tard : il s'agit de la
possibilité de remplacer un ancien cas de la base par la description courante
(figure 6.30) :
Fig. 6.30 : Le dialogue permettant de remplacer un ancien cas de la base de cas
6.5.8.5 Le choix “Consulter l'expert”
Le questionnaire est aussi un outil permettant de déterminer la classe à laquelle
appartient la description courante appelée ici observation. La procédure de
consultation est la suivante :
❶ L'utilisateur rentre sa description de l'individu observé dans l'ordre qu'il
désire sans être contraint par la procédure de décision du système expert,
❷ Il choisit "Consulter l'expert" dans le menu "Cas"
❸ Comme pour l'enregistrement d'un cas, l'utilisateur peut corriger sa
description en la visualisant dans le champ “Exemple” (figure 6.31) :
Fig. 6.31 : La description du cas à consulter
Formalisation informatique des descriptions : HyperQuest
197
❹ Le numéro associé à cette description est 0 car il ne comporte pas le nom de
la classe. En validant la description, le cas est stocké dans un fichier texte
de consultation nommé “consult”, prêt pour la procédure de détermination.
❺ Que ce soit avec KATE (l'arbre de décision) ou CaseWork (raisonnement
par cas), la consultation s'effectue automatiquement jusqu'à l'affichage
d'un résultat (figure 6.32) :
Fig. 6.32 : La consultation du système expert à partir du questionnaire
6.5.8.6 Le choix “Voir la liste”
Si l'utilisateur désire visualiser une description déjà enregistrée dans la base, il
peut afficher la liste des cas par le choix “Voir la liste”. Il a alors la possibilité de
voir la description de l'un des exemples en cliquant sur son numéro ou bien
encore d'imprimer la liste des cas déjà saisis par le choix “Imprimer un
champ...” d'HyperCard. Cette possibilité est importante pour que l'expert puisse
avoir toujours le contrôle de la base de cas : un des objectifs est par exemple de
ne pas renseigner deux fois le même cas !
6.5.8.7 Le choix “Convertir en Casuel”
CASUEL est une syntaxe de description des connaissances observables (le
modèle descriptif) et des cas qui a été adoptée par le consortium INRECA (projet
Esprit n° 6322) pour permettre l'intégration des technologies du raisonnement
par cas et d'induction. C'est un langage commun de représentation des
connaissances comme le LCRC. Afin de pouvoir utiliser les différents outils du
consortium écrits dans différents langages (SmallTalk, C et Lisp), il est
nécessaire de convertir ces connaissances au format CASUEL afin que chacun
des programmes puisse les traiter.
198
Chapitre 6
6.5.9 Le menu “Personnaliser”
6.5.9.1 Le choix “Préférences...”
Ce choix permet de configurer l'application qui a été générée à partir
d'HyperQuest. Cet aspect n'est pas développé dans cette thèse, on peut se
reporter au manuel d'utilisation d'HyperQuest [Conruyt & Dumont, 1993].
6.5.9.2 Le choix “Scanner une image”
En activant cette option, l'utilisateur peut associer une image pour illustrer les
objets ou attributs observables du domaine. Ce choix permet de "scanner"
(scannériser) directement avec HyperScanTM des images ou dessins en noir et
blanc qui viendront se superposer à la carte courante dans le questionnaire
(§ 6.5.10.1). Ce choix est plutôt dédié à l'expert s'il désire illustrer le
vocabulaire qu'il utilise par des dessins appropriés, ceci afin de faciliter sa
compréhension par l'utilisateur final du système.
Inversement, l'utilisateur final peut illustrer sa description observée à l'aide du
même outil. La souplesse d'utilisation d'HyperScan est un atout dans le choix
d'un outil hypertexte pour illustrer les objets du modèle descriptif. C'est un
élément clé de la constitution d'une base de connaissances multi-média. La
couleur qui sera intégrée prochainement à HyperCard (version 3.0) dans le cadre
de machines plus puissantes (Power PC) ouvrira des perspectives encore plus
attrayantes à ces outils hypertextes.
6.5.9.3 Le choix “Tout importer”
Ce choix permet de mettre à jour les images d'une nouvelle pile de questionnaire
concernant un domaine déjà modélisé auparavant et ayant eu un questionnaire
personnalisé. A chaque fois qu'un utilisateur personnalise des cartes dans un
questionnaire, il doit “sauver la carte” (§ 6.5.9.11). La carte est alors recopiée
dans une autre pile indexée au nom du domaine. S'il s'agit d'une
personnalisation de l'observable, le nom de cette pile est “Observable
Nom_du_domaine”. S'il s'agit d'une personnalisation de l'observé, le nom de
cette pile est “Observé Nom_du_domaine”.
La sauvegarde tient compte non seulement des images, mais aussi du nombre, de
la nature et de la position de tous les champs et boutons de la carte
personnalisée : il en est ainsi des boutons transparents utilisés lors de la
procédure “Associer un bouton” (§ 6.5.9.6). En choisissant “Tout importer”, on
n'a plus besoin de remodifier des cartes que l'on avait déjà personnalisées dans
une précédente version du questionnaire.
Formalisation informatique des descriptions : HyperQuest
199
6.5.9.4 Le choix “Importer une image”
Ce choix est identique au précédent “Tout importer” mais est spécifique à la carte
courante du questionnaire.
6.5.9.5 Le choix “Déplacer l’image”
Une fois l’image importée, celle-ci peut ne pas être positionnée correctement à
l’endroit voulu par rapport aux boutons de la carte par exemple. “Déplacer
l'image” permet de pointer l’image sélectionnée en pointillés et de la déplacer
avec la flèche (figure 6.33). La validation se fait en tapant sur la touche “Retour”
comme indiqué par le message en bas de la carte.
Fig. 6.33 : Déplacer une image dans le questionnaire
6.5.9.6 Le choix “Associer un bouton”
Associer un bouton consiste à rendre une zone de l’image sensible à un clic de la
souris pour une action déterminée (par exemple pointer vers une sous-partie de
l’image d'un objet). Les zones à délimiter pouvant avoir des formes variées,
elles sont donc recouvertes de boutons transparents soit rectangulaires soit
polygonaux. L'utilisateur doit choisir la forme du bouton qu'il veut associer à la
partie de l'image (figure 6.34) :
Fig. 6.34 : Associer des boutons multi-formes aux images dans le questionnaire
200
Chapitre 6
Les boutons rectangulaires
Par exemple, à partir du dessin de dents dont on cherche à déterminer le type de
bordure, l’utilisateur va cliquer sur le bouton “lisse” à associer à la partie de
l'image correspondante. En fonction de la forme du dessin, il peut choisir entre
un bouton polygonal ou un bouton rectangulaire afin de le recouvrir. S’il choisit
le bouton rectangulaire, puis clique sur le bouton “lisse” de la carte
<bord(dents)>, une copie transparente de ce bouton vient se placer au milieu de
la carte.
L’utilisateur peut alors déplacer cette copie sur la partie désirée de l’image,
agrandir ou diminuer les limites du bouton avec la flèche (figure 6.35). La boite
de messages en bas de la carte indique ce qu’il faut faire pour terminer :
Fig. 6.35 : Associer un bouton rectangulaire ou polygonal à une partie d’image
Formalisation informatique des descriptions : HyperQuest
201
Les boutons polygonaux
Lorsque les formes de l’image à recouvrir sont complexes ou se superposent, il
est préférable de recourir à ce choix pour “Associer un bouton” (figure 6.35).
Cette option permet de prendre en compte n’importe quelle forme du dessin. Un
curseur en forme de croix apparaît à l’écran et l’utilisateur doit entourer la partie
de l’image à délimiter. Il devra double-cliquer avec la souris pour fermer le
polygone ainsi défini.
6.5.9.7 Le choix “Changer le titre”
Il est possible de changer le titre d'une carte quelconque du questionnaire
(figure 6.36) pour poser une question différente de celle qui a été générée
automatiquement (pour les cartes des objets) ou dans le modèle descriptif (pour
les attributs) :
Fig. 6.36 : Changer le titre d'une question dans le questionnaire
6.5.9.8 Le choix “Déplacer les boutons”
Ce choix permet de visualiser tous les boutons de la carte, dont ceux qui
recouvrent des parties d’image afin de les déplacer. Il suffit pour cela de
maintenir la souris enfoncée avec la flèche sur l’objet pendant le déplacement. La
touche “Retour” termine cette action.
6.5.9.9 Le choix “Eliminer un bouton”
Il est possible de détruire les boutons créés : il faut d'abord les sélectionner (en
les cliquant une fois) avant de les éliminer. Tous les boutons de la carte sont
concernés par ce choix.
6.5.9.10 Le choix “Déplacer les champs”
Ce choix est similaire à celui de “Déplacer les boutons”. Il permet de déplacer les
textes des champs de la carte.
202
Chapitre 6
6.5.9.11 Le choix “Sauver la carte”
Une fois que l'on a associé de nouveaux boutons sur les parties de l'image d'une
carte du questionnaire et que l'on a positionné les boutons des valeurs ou objets
correspondants, il faut conserver les modifications du questionnaire afin qu'elles
puissent être réutilisées par la suite. Elles sont enregistrées sur la pile d'images
observables. Cela permet de stocker la configuration de chaque carte
personnalisée par l'utilisateur, ce qui s'avère utile lors de la génération d'un
nouveau questionnaire.
Pratiquement, le fait de sauver une image et les boutons associés dans la pile
d'images génère automatiquement les scripts permettant de créer les boutons de
forme quelconque, de les déplacer et de commander leur action. Ils sont stockés
dans le champ de scripts de la carte correspondante dans la pile d'images
observables.
6.5.10 Les boutons
6.5.10.1Le bouton “Voir une image”
Ce bouton (figure 6.37) permet de numériser à l'aide d'un scanner et du
programme HyperScan TM des images sous forme de cartes HyperCard. Il est
destiné à l'utilisateur final du questionnaire qui désire illustrer son cas par des
images des différents objets ou attributs qu'il est en train de décrire. Il s'agit
pour lui de “prouver” sa description en l'illustrant, ce qui est une information
très intéressante pour l'expert afin de valider les cas des autres utilisateurs. C'est
aussi la procédure inverse de la personnalisation des objets (§ 6.5.7), puisqu'elle
permet d'illustrer l'observé et d'opérer un retour d'information vers l'expert.
Fig. 6.37 : Le bouton “Voir une image” de la pile du questionnaire
Les images observées sont stockées dans une pile à part et référencées dans la
description au format LCRC ou CASUEL : celle d'un objet est indexée au slot
“image” par le numéro d'identification de la carte de la pile contenant l'image
numérisée (voir figure 6.29).
Formalisation informatique des descriptions : HyperQuest
203
HyperScan (figure 6.38) est un logiciel de numérisation d'images ou dessins en
noir et blanc très souple d'emploi :
Fig. 6.38 : La pile HyperScan
Pour une documentation en ligne sur son utilisation, il suffit de cliquer sur le
bouton d'aide “?”. Une fois l'image numérisée, le bouton “Enregistrer” permet
de coller dans la pile des images observées du questionnaire (“Observé
Hyalonema” par exemple) le contenu imagé de la carte HyperScan. Chaque
image observée de la pile contient l'image numérisée ainsi qu'un bouton “Ok” de
retour au questionnaire. Une fois revenu, cliquer sur le bouton “Voir une image”
permet directement l'accès (en plein écran) à l'image numérisée associée à l'objet
ou l'attribut dans le questionnaire (figure 6.39) :
Fig. 6.39 : Illustration par l'utilisateur d'un objet observé : les amphidisques(2) du cas n° 3
204
Chapitre 6
6.5.10.2Le bouton “Naviguer”
Lors de la saisie d'un cas, pour se repérer, l'utilisateur doit pouvoir accéder
rapidement à la structure du domaine sur lequel il travaille et ceci à plus forte
raison lorsqu'il ne s'agit pas du concepteur du modèle.
Fig. 6.40 : Le bouton “Naviguer” du questionnaire
Par simple clic sur ce bouton (figure 6.40), la vue globale du domaine s'affiche
(figure 6.2) et le mode navigation est activé. Grâce à cette vue d'ensemble,
l'utilisateur peut situer à nouveau les objets les uns par rapport aux autres et
imaginer facilement le chemin qu'il a déjà parcouru, c'est-à-dire repérer les
objets qu'il a déjà décrits. La vue d'ensemble permet de passer de la description
d'un objet à un autre sans être obligé de parcourir les cartes du questionnaire
correspondant aux objets intermédiaires. Lorsque l'objet visé n'a pas déjà été
instancié, il n'est pas présent et ne peut donc pas être atteint par ce mode de
navigation : ce saut est interdit.
6.5.10.3Le bouton “Coursier”
Le bouton “Coursier”, situé en bas à droite de chaque carte, permet à tout
moment de quitter l'application (figure 6.41) :
Fig. 6.41 : Le bouton “Coursier” du questionnaire
Pour décider si le coursier emporte la description du cas, c'est-à-dire si le cas est
enregistré dans la base de cas ou pas, il faut alors répondre à la boite de dialogue
qui est déclenchée après sa course (figure 6.42) :
Fig. 6.42 : Le dialogue permettant de sortir du questionnaire
En choisissant “Enregistrer”, le coursier va stocker la description dans la base de
cas à la suite des descriptions déjà enregistrées, sinon “Quitter” n'enregistre pas
Formalisation informatique des descriptions : HyperQuest
205
le cas dans la base. Il est néanmoins conservé dans le questionnaire et pourra être
retrouvé par la procédure “Dernier” (§ 6.5.8.2) lors de la réouverture de cette
pile.
6.6 Conclusion
Toutes les caractéristiques et fonctionnalités d’HyperQuest décrites dans ce
chapitre ont été implantées pour répondre à l’objectif de robustesse des
descriptions en biologie.
Le générateur de modèle descriptif d’HyperQuest permet d’éditer les descriptions
observables. Elles doivent répondre à des règles d’élaboration précises sur la
cohérence des relations entre objets à observer. Nous avons explicité ces règles
et nous les avons illustrées à l’aide de notre application sur les Hyalonema. Les
définitions des objets du modèle sont ensuite stockées dans des fichiers texte
sous forme de frames.
Le générateur de questionnaire permet d’automatiser le passage de l’observable à
l’observé. Il analyse les frames décrits dans les fichiers et fait correspondre les
objets conceptuels structurés sous forme arborescente dans le modèle avec les
entités hypertextes du questionnaire. Nous pouvons donc à partir de là construire
un questionnaire automatiquement par programme. Nous avons illustré ces
différents modes de représentation à l’aide de notre application.
Le questionnaire se présente alors comme un guide d’observation interactif et
simple d’emploi. Son utilisation pour la constitution d’une base de cas ou la
consultation du système expert doit obéir aux objectifs de mise à jour, de
redondance et d’ergonomie afin d’obtenir finalement des descriptions observées
les plus robustes possible. C’est à partir de ces cas bien décrits (représentés dans
un fichier texte) et des connaissances initiales du modèle que l’on va pouvoir
améliorer le processus de classification et de détermination.
206
Chapitre 6
VII LE TRAITEMENT DES
DESCRIPTIONS BIOLOGIQUES :
KATE ET CASEWORK
Dans notre méthode d'acquisition des connaissances expliquée au chapitre 2, le
traitement des descriptions biologiques est la troisième phase importante du
processus qui permet de répondre aux deux objectifs de classification et de
détermination en biologie. Initialement en apprentissage, la logique inductive est
le raisonnement qui a été utilisé pour répondre à ces deux objectifs afin de
trouver une alternative aux systèmes experts traditionnels à base de règles.
Aujourd'hui, nous souhaitons aller plus loin dans le choix de différentes
méthodes qui seront mieux adaptées chacune à un objectif particulier. Le but de
ce chapitre est de montrer en quoi le raisonnement inductif est plus approprié à la
problématique de la classification telle que nous l'avons définie au § 2.3.2, et
pourquoi une forme de raisonnement analogique, le raisonnement par cas, nous
permet de mieux résoudre le problème de la détermination en biologie. Les
mérites et limites respectives de ces méthodes sont analysées à la lumière de
notre application sur les Hyalonema.
En effet, une fois formalisée la base d'exemples (chapitre 5), nous pouvons
appliquer différentes méthodes de traitement issues à la fois des recherches en
analyse des données et en apprentissage. Il s'agit ici de formaliser le processus
de génération automatique de critères de décision pour :
1) fabriquer un arbre de classification (par induction avec KATE),
2) utiliser cet arbre pour la détermination (par déduction avec KATE),
3) comparer directement les exemples pour la détermination (avec un
raisonnement de type analogique : CaseWork1).
7.1 Formalisation de l'approche inductive
Le programme KATE [Manago, 1991] est une extension des techniques
d'induction utilisées dans ID3 [Quinlan, 1983]. Il autorise le traitement d'un
ensemble d'exemples Ω = {w1,...,wn} composé de descriptions complexes d(w)
sous forme d’objets de synthèse [Diday, 1987], et comportant des relations entre
objets de la description. A chaque d(w) est associée une classe d’identification ci
1
Ce programme informatique constitue notre véritable contribution lors de cette thèse où il
s’agissait de répondre à la question sur la robustesse de la consultation.
208
Chapitre 7
(voir la classe soulignée de l'exemple du § 5.6). Comme nous avons émis
l’hypothèse que les descriptions sont celles de spécimens (§ 5.1.1), nous
assimilerons d(w) à w, c'est-à-dire qu'un cas représente la description d'un
individu (qu'il soit prototypique ou unitaire).
7.1.1 Rappel des Notations
C = {c1,...,c k} est l'ensemble des k Classes ou chaque ci représente la décision
de l'expert pour le cas w.
Ω = {w 1,...,w n} est l'ensemble des cas observés à traiter par induction, k < n.
Y = Y1 x Y2 x ... x Yp est l'ensemble des variables observées du domaine,
i
i
i
Yi = {y 1 ,..,y j ,..,y q } est l'ensemble des variables de Ω i représentant un objet
ou une partie pi de la description d'un cas,
i
i
i
Qi = {q 1 ,..,q j ,..,q q } est l'ensemble des qualités ou caractères observés de
Ω i.
Les qualités d’un objet appelées aussi attributs descriptifs en intelligence
artificielle sont à distinguer du statut Si de l’objet, c'est-à-dire de la propriété de
présense - absence qui conditionne la description de cet objet.
N = N 1 x N 2 x ... x
observées d’individus.
Np est l'ensemble des noms d’objets ou parties
Par exemple, Ni = {ni} est l'ensemble singleton comportant le nom de la partie
pi de Ω i. Si n i se spécialise en n’i, on a Ni = {n i, n’i} avec n’i < ni.
i
i
i
ni
Ui = (u1 ,..,u k ,..,u n ) ∈ [Ω i ] est l'ensemble des instances de l'objet
i,
Mi = N i o Ui est l’ensemble des objets i multi-instanciés,
on a Yi = Qi o Mi et Si = {exist} o Mi.
Exemples : Q1 = {taille}, N1 = {amphidisques}, U1 = {1, 2}
M1 = [amphidisques (1)], M2 = [amphidisques (2)]
S1 = { exist [amphidisques (1)] }, Y1 = { taille [amphidisques (1)] }
S2 = { exist [amphidisques (2)] }, Y2 = { taille [amphidisques (2)] }
Q2 = {forme}, N2 = {corps}, U2 = {1}
M2 = {corps}, S2 = { exist (corps)}, Y 2 = { forme (corps)}
Le traitement des descriptions biologiques: KATE et CaseWork
209
ij
i
Vk est l'ensemble des valeurs observées de yj lorsqu'il existe k instances de
ij
i
l'objet i pour le cas w. Si k = 1, on a V k = Vj et Mi = N i.
7.1.2 Principe de la classification par arbre de décision
Le but de la méthode de création d'un arbre de décision est d'obtenir une
caractérisation des classes décrites dans les exemples en construisant une
fonction caractéristique de reconnaissance suffisante des classes entre elles (ce
qui correspond à une diagnose, voir figure 2.5).
L'idée centrale des algorithmes d'apprentissage par arbre de décision consiste à
diviser récursivement les exemples de l'ensemble Ω d'apprentissage à l'aide des
attributs jusqu'à obtenir des sous-ensembles d'exemples qui soient suffisamment
purs, c'est-à-dire ne contenant (presque) que des exemples appartenant tous à la
même classe.
Ces sous-ensembles sont alors regroupés au niveau des feuilles ou nœuds
terminaux de l'arbre de décision.
Une division d'un nœud intermédiaire est déterminée par l'un des attributs qui
décrivent les exemples. Cette division est fonction du nombre de valeurs
possibles associées à l’attribut. Par exemple, dans le cas d'un attribut booléen,
numérique ou testant l'existence d'un objet, la division est binaire. Elle est n_aire
en considérant un ensemble fini de valeurs qualitatives nominales ou classifiées.
La division peut aussi être vue comme une question à poser à l'utilisateur pour
permettre la séparation des exemples en autant de groupes qu'il y a de valeurs
possibles attachées à l'attribut.
L’autre idée est que cette division soit la plus efficace possible de manière à ce
que l’effort de recherche pour trouver la solution soit minimal : on désire poser le
minimum de questions à l’utilisateur. Cette idée est néanmoins subordonnée à
l’utilisation de l’arbre de décision pour faire de la détermination.
Soit T un arbre de décision n_aire construit à partir de Ω et d un nœud
intermédiaire de T correspondant à un sous-ensemble E ⊂ Ω, et défini par la
division s (figure 7.1). Le nœud d correspond au choix d'un attribut A parmi s,
s étant la liste des attributs ordonnés en fonction de leur pouvoir de
discrimination. E est l’ensemble des exemples au nœud d, c’est-à-dire
l’ensemble qui vérifie la liste des valeurs indexées sur le chemin conduisant de la
racine d0 à d (voir § 7.1.4.2.5).
210
Chapitre 7
Ω
E
Noeud
d, s
A
vn
v1
vi
E1
Ei
En
i
A = yj , un attribut d’une partie de la
description et n descriptions ou valeurs de cet attribut {v1,...,vi,...,vn},
Fig. 7.1 : Schéma d’un nœud de l’arbre T Soit
ij
v =v
i
k
partie i
attribut j
instance k
Une fonction de partitionnement R induisant une partition sur E est définie de la
manière suivante :
R : ∀ w ∈ E , A(w) = v i ⇔ w ∈ Ei
R (E) = {E1,...,En} est alors une partition de E avec les propriétés suivantes :
E = ∪ Ei
∀ i = 1,...,n on a Ei ∩ Ej = ∅
7.1.3 Algorithme
On peut décrire notre algorithme par une procédure générale de construction
d'arbre de décision [Vignes, 1992].
Cela consiste à sélectionner un attribut selon un certain critère pour former le
premier nœud de l'arbre, puis à créer les différentes branches qui partent de ce
nœud, une branche étant étiquetée par l'une des valeurs possibles de l'attribut
sélectionné. Ensuite, on répartit la liste des exemples restants en fonction de leur
compatibilité avec chaque branche au nœud courant. Enfin, on réitère le
processus jusqu'à n'obtenir que des exemples de la même classe qui forment
alors une feuille de l'arbre de décision.
Le traitement des descriptions biologiques: KATE et CaseWork
211
L'algorithme demande donc trois opérations principales :
1) Tester si un nœud est terminal : si chaque élément de E appartient à la même
classe, on construit une feuille de l'arbre libellée par le nom de la classe,
2) Sélectionner la meilleure division pour placer son représentant (A) dans un
nœud intermédiaire,
3) Partitionner les exemples restants à un nœud intermédiaire en sous-ensembles
disjoints.
Une quatrième opération spécifique à KATE vient s'ajouter entre 1) et 2) :
1') Construire l'espace des attributs possibles au nœud d.
Soit l'ensemble des exemples restants E et l'ensemble Yd des attributs restants
attachés au nœud d :
Algorithme :
Début :
E = Ω,
ConstruireArbre (E, Yd)
si
Critèred'Arrêt (E) alors
ConstruireFeuille (E)
sinon
Yd = ConstruireEspace (E)
s = OrdonnerCritères (E, Yd)
A = Meilleure_division (E, s)
di = CréerNœud (A)
partition = R (E)
Pour tout Ei ∈ partition
CréerBranche (vi)
ConstruireArbre ( Ei , Yd )
Fin Pour tout
Fin si
Fin.
212
Chapitre 7
ConstruireEspace (E)
Yd = ∅
Pour tout mi ∈ Mi
si
∀ w ∈ E,
sinon si
sinon
Fin si
mi ∈ w alors Yd = Yi ∪ Yd
∀ w ∈ E , mi ∉ w alors Yd = ∅ ∪ Yd
Yd = Si ∪ Yd
Pour tout A ∈ Yd
ij
ij
si Vk ∈ R ou si Vk ∈ N alors T = CalculerSeuil (A, E)
Fin Pour tout
Fin Pour tout
retourner Yd
7.1.4 Description des fonctions principales de l'algorithme
7.1.4.1 OrdonnerCritères (E, Y d)
Soit Yd = {A1 ,...,Ap }, l’ensemble des attributs applicables au nœud courant.
L’ordonnancement des critères est fondée sur l’application des principes de la
théorie de l’information et de l’entropie [Shannon, 1949].
L’entropie de Shannon est une mesure de probabilité sur la difficulté de
prévoir laquelle des valeurs possibles d’un attribut est applicable à un nouvel
individu choisi au hasard parmi l’ensemble des exemples décrits [Estabrook,
1967]. Elle possède une signification statistique indépendante du contenu du
message véhiculé : l'entropie est basée sur la mesure du degré d'incertitude de la
réalisation d'évènements aléatoires par rapport à des expériences possédant un
nombre k d'issues ayant chacune une certaine probabilité d'apparition [Yaglom
A.M. & Yaglom I.M., 1957]. Par exemple, si notre expérience consiste à
déterminer la couleur de la première corneille rencontrée, nous pourrons
considérer la couleur noire avec une certitude presque entière (bien qu'il existe
quelques rares corneilles blanches dans la nature selon les zoologues). Notre
incertitude sera plus grande si l'expérience est de déterminer si le premier homme
rencontré sera gaucher : le résultat de l'expérience peut être prédit presque sans
hésitation, mais les craintes quant à l'exactitude de cette prédiction seront plus
fondées que dans le premier cas. Il est sensiblement plus difficile de prédire
d'avance le sexe de la première personne que nous rencontrerons. Mais cette
expérience possède encore un degré d'indétermination relativement petit en
comparaison de la tentative de désigner d'avance le vainqueur d'un tournoi dont
213
Le traitement des descriptions biologiques: KATE et CaseWork
les vingts participants nous sont entièrement inconnus ou de donner le numéro
du billet de loterie gagnant du gros lot au prochain tirage...
Le degré d'incertitude de chaque expérience est déterminé par le nombre k
d'issues possibles ainsi que de leurs probabilités d'apparition : elle est notée
f(k). Cette fonction est déterminée par les trois propriétés suivantes:
1) Si k = 1, il n'y a aucune incertitude dans ce cas et la mesure doit s'annuler.
2) Lorsque k augmente, la mesure f(k) est une fonction croissante des k
issues.
3) Si l'on considère deux expériences indépendantes α et β (avec k issues pour
α et l issues pour β), le degré d'incertitude de l'expérience composée αβ est
égal à la somme des incertitudes qui caractérisent les expériences α et β:
f(kl) = f(k) + f(l).
On peut montrer [Guiasu & Theodorescu, 1971] que la seule fonction de la
variable k qui vérifie ces trois conditions est la fonction logarithmique : f(k) =
log k. Dans les applications, les logarithmes de base 2 sont le plus souvent
utilisés, ce qui signifie que l'on prend comme unité de mesure du degré
d'incertitude, l'incertitude d'une expérience possédant deux issues également
probables. Ce choix n'est pas essentiel : un facteur constant existe entre les
différentes bases.
Cette mesure est aussi une information sur la capacité d’un attribut à séparer
efficacement les exemples. Supposons en effet un attribut ayant 2 valeurs
possibles, p1 et p2 sont les proportions d’exemples prenant respectivement les
valeurs 1 et 2. Si tous les exemples d’apprentissage prennent la première valeur
(p1 = 1 et p2 = 0), alors le fait d’observer l’état 1 n’apporte aucune information
supplémentaire pour séparer les exemples. Inversement, si la répartition des
exemples selon les valeurs de l’attribut est homogène (p1 = 1/2 et p2 = 1/2 pour
l’équi-répartition), l’efficacité de discrimination est maximale.
On peut donc associer à chaque attribut A ∈ Yd une entropie Ent(E) qui est la
somme des distributions de probabilités des n valeurs de son domaine de
définition. Ces probabilités sont calculées en fonction des états que prennent les
exemples pour l’attribut A.
Pour chaque valeur discrète de A, on définit la fréquence d’occurrence Pi de Ei
qui est la probabilité associée à chaque valeur d’attribut pour qu’un exemple w
appartenant à E appartienne à Ei :
Pi =
Card(Ei )
est donc la probabilité de choisir un exemple ayant l’état i de A.
Card(E)
n
L’entropie est alors calculée selon la formule : Ent(E) = − ∑ Pi × log 2 P i
i =1
214
Chapitre 7
ou n est le nombre de valeurs possibles de A.
Par exemple, pour l’attribut A = C (la classe) au nœud courant, on peut calculer
la proportion d’exemples de E qui sont de la classe ci et l’entropie de C sera
alors la quantité d’information nécessaire pour déterminer les classes dans le
sous-ensemble E.
7.1.4.2 Meilleure_division (E, s)
Par principe, l’entropie est mesurée sur un attribut que l’on désire apprendre
(C par exemple), en fabriquant une caractérisation de cet attribut à l’aide d’autres
attributs. C’est alors que se justifie la mesure du gain d’information :
Le Gain d’information est la mesure de l’accroissement d’ordre sur C
qu’introduit le choix d’un autre attribut A : plus ce gain est élevé, plus la
répartition des exemples pour chaque classe est homogène (le meilleur gain est
celui qui représente l’équi-répartition des exemples). C’est le gain calculé le plus
élevé qui permet de choisir le meilleur attribut permettant d’apprendre C, qui
permet donc la meilleure division au nœud courant.
La formule du gain d’information est la suivante :
Gain(A, E) = Ent(E) − Ent(A, E)
n
avec Ent(A, E) = ∑ Pi × Ent(E i / C) étant l’entropie moyenne pondérée des
i=1
informations conditionnelles des n valeurs possibles de A.
n
En effet, Ent(Ei / C) = − ∑ pi × log 2 pi est l’entropie conditionnelle calculée
i =1
Card(E i ∩ Cj )
est la probabilité
Card(E)
conditionnelle associée à A (probabilité de choisir un objet ayant l’état i de A et
l’état j de C).
pour chaque valeur de A avec pi =
Remarque : On a pu constater dans différentes applications médicales
[Kononenko et al, 1984] que la mesure du gain d'information favorise les
attributs ayant un domaine de définition avec beaucoup de valeurs. Quinlan
(1986) a introduit la notion de gain d'information relatif pour compenser ce
biais en divisant le gain d'information précédent par l'information contenue dans
le choix de l'attribut A : IV(A)
n
IV(A) = − ∑ Pi × log 2 P i
i =1
Gainℜ(A,E) =
Ent(E) − Ent(A, E)
IV(A)
Le traitement des descriptions biologiques: KATE et CaseWork
215
Dans notre algorithme, A = meilleure_division (E, s) correspond au choix de
l’attribut de s possédant le gain d’information relatif le plus élevé pour séparer au
mieux les exemples en fonction du but à atteindre qui est de faire de la
discrimination sur l’attribut C.
7.1.4.3 Critèred'Arrêt (E)
Il existe plusieurs moyens d'arrêter la construction d'un arbre de décision :
1) ∀ w ∈ E , Classe(w) = c i.
C'est la condition d'arrêt la plus naturelle, c'est-à-dire lorsque tous les cas d'un
nœud ont la même modalité ci pour la variable décision.
2) Card (E) > seuil donné.
Un inconvénient du premier critère d'arrêt est qu'il conduit à une séparation
totale des classes, ce qui fait que certaines branches terminales ne possèdent que
très peu d'exemples. Donc, séparer les exemples lorsqu'il n'en reste que 2 ou 3
n'est pas significatif d'un point de vue statistique : cela relève le plus souvent du
hasard et ne contribue pas à une véritable connaissance du domaine [Crémilleux,
1991].
C'est pourquoi certains algorithmes imposent un nombre minimal d'exemples
pour continuer à construire le sous-arbre (segmenter le nœud courant) comme le
fait le système CART [Breiman et al., 1984] en attribuant a priori la valeur 5 à
ce seuil.
3) Card (E) / Card (Ω) > seuil donné.
Au lieu d'appliquer le critère absolu du 2), on peut fixer un seuil relatif
dépendant du nombre total de cas [Cestnik, 1987].
4) Card ({ w ∈ E / Classe(w) = ci }) > seuil donné.
Au lieu de comptabiliser les cas indépendamment de la classe auxquels ils ont été
attribués, on peut décider d'arrêter la construction de l'arbre lorsque le nombre
de cas d'une même classe dépasse un certain seuil.
5) La profondeur de l'arbre est limitée à un seuil donné.
Soit D = {di}, l'ensemble des nœuds de l'arbre T, soit d0 un nœud particulier
appelé la racine de l'arbre.
216
Chapitre 7
Tout nœud di autre que d0 est relié par un arc à un autre nœud di' appelé le fils
de di. Si d i' est fils de di alors di est appelé père de di' . Cet arc est une branche
avec un sommet di' et une extrémité di. Elle contient la valeur vi à observer pour
déterminer l’individu (cf. figure 7.1).
Dt = {d t} est l'ensemble des nœuds terminaux ou feuilles de l'arbre T, une
feuille est un nœud dk = dt qui n'a pas de fils.
Soit la relation “>” (“père de”).
Supposons que d 1, d 2, ..., d k soit une séquence de nœuds de T telle que
d1 > d 2 > ... > d k-1 > d k. Cette séquence est appelée un chemin depuis d 1
jusqu'à dk dans T. La longueur du chemin est k - 1.
La profondeur de l'arbre T est la longueur du chemin maximal menant de d0 à
dt.
6) Tester si toutes les variables candidates à un nœud de l’arbre sont jugées
“indépendantes” de la variable décision. Pour ce faire, on calcule le test du χ 2
pour chaque variable à partir du tableau de contingence défini par celle-ci et la
variable décision. Puis on compare ce calcul avec le gain d'information. Ce
dernier tend vers un χ 2 lorsque le nombre de cas au nœud courant est élevé.
Remarque : ce dernier point n'est souvent pas vérifié dans nos application pour
la significativité du test, ce qui est un inconvénient pour arrêter la construction de
l'arbre de manière fiable. Ce test est à considérer pour les nœuds terminaux dont
le nombre d'exemples est élevé ainsi que le nombre de modalités de la variable
décision [Crémilleux, 1991].
7) Il ne reste plus aucune variable candidate pour segmenter le nœud. En effet, à
chaque fois qu'une variable est choisie comme test pour l'arbre de décision, elle
est éliminée de la liste des variables candidates pour les nœuds suivants. Cette
règle ne s'applique pas pour les variables numériques qui peuvent être réutilisées
plusieurs fois (voir § 7.1.4.4). De même, les variables classifiées présentent des
valeurs différentes si elles ont déjà été utilisées une fois pour la segmentation : il
faut pour cela exploiter l'ordre introduit par les nœuds intermédiaires de la
taxonomie des valeurs possibles : la variable est examinée paliers par paliers
jusqu'aux feuilles terminales avant d'être éliminée de la liste des variables
candidates.
Le traitement des descriptions biologiques: KATE et CaseWork
217
7.1.4.4 ConstruireFeuille (E)
Chaque feuille construite est libellée par le nom de la classe correspondante.
Si tous les exemples à un nœud dt (feuille ou nœud terminal) n'ont pas la même
valeur de classe, on calcule la “probabilité” Pd associée à chaque classe ck
présente en dt :
Card(Ed )
Pd =
Card (E)
A chaque libellé de classe étiquetant le nœud terminal est associé la probabilité
calculée Pd. Cette configuration correspond à une ambiguïté ou un “clash”
(voir § 1.6.1.3).
7.1.4.5 CalculerSeuil (A,E)
Cette fonction ne s'applique qu'aux attributs numériques (à valeurs ordonnées).
Tout d'abord, l'ensemble des exemples E est trié selon les valeurs croissantes
prises pour l'attribut A considéré :
T1
ex2
T2
ex4
T3
ex3
R ou N
ex1
L'ensemble des valeurs de A prises par E est fini et noté {v1 ,...,vn }. Chaque
point entre deux paires d'exemples dans la liste triée est alors calculé pour former
un seuil potentiel de discrimination. Etant données n valeurs distinctes de A
prises par E, il y a (n - 1) évaluations possibles, ce qui donne un ensemble de
Tn-1 seuils potentiels avec
Ti =
vi + v (i + 1)
.
2
A chaque évaluation de Ti , les exemples E sont séparés en deux parties E1 et E2
(binarisation de l'attribut) et on calcule comme avant le gain d'information de
chaque seuil potentiel Ti, le test étant alors booléen : A(E1) ≤ Ti et A(E2) > Ti.
Après les (n - 1) évaluations, on choisit le seuil T qui possède le meilleur gain
d'information.
S'il existe des intervalles dans l'ensemble des valeurs prises par A, on applique
le même principe d'ordonnancement des exemples selon l'axe des entiers ou des
réels. Les seuils potentiels sont les bornes des intervalles de chaque exemple.
S'il y a n valeurs (intervalles) pour tous les exemples, cela donne 2n - 2 seuils
potentiels à calculer (en ôtant les bornes les plus extrèmes) :
218
Chapitre 7
T1
T3
T4
ex2 ex
1
T6
R ou N
ex 3
T2
T5
Néanmoins, pour le calcul du gain d'information de chaque seuil, le problème
est ici plus délicat du fait du recouvrement des intervalles entre les différents
exemples : le même exemple peut être comptabilisé deux fois pour un seuil
donné : A(Ex) ≤ T i et A(Ex) ≥ T i. Mais cela ne gêne pas le calcul du gain
d'information lorsque les modalités ne sont pas disjointes (un individu peut
prendre plus d'une modalité pour la variable A), de même que lorsqu'elles ne
sont pas exhaustives (un individu peut ne pas prendre une modalité de la
variable, ce qui est le cas de la réponse «inconnu»).
En effet, que ce soit pour une variable numérique où le test est binarisé (n = 2
branches ou valeurs possibles) ou pour une variable nominale n_aire, si la valeur
de A est inconnue pour un exemple, alors toutes les valeurs sont possibles :
l'exemple est propagé sur les n branches. Par contre, si l'exemple possède
plusieurs valeurs résultant de l'imprécision des descriptions observées de
l'observateur (voir § 3.6.10.2), il est propagé sur ces branches uniquement.
Afin que la mesure du gain d'information reste consistante, la taille du sousensemble E au nœud d est artificiellement modifiée :
Card (E) = Card (E) + (p - 1), ou p est le nombre de branches ou l'exemple a été
propagé.
Remarques : Dans [Fayyad & Irani, 1992], il est montré qu'il est inutile de
calculer le gain d'information des (n - 1) points possibles de la partition
engendrée par les n valeurs d'un attribut numérique : il suffit de ne considérer
que les seuils qui séparent deux classes différentes après avoir trié les exemples
par ordre croissant. Cette fonctionnalité n'est pas encore implantée dans
l'algorithme.
Par contre, un attribut de type entier ou réel, s'il est choisi à un nœud de l'arbre,
peut être réutilisé dans la liste des tests possibles pour engendrer le sous-arbre du
nœud (contrairement aux autres tests non numériques qui sont éliminés de la
liste). Les valeurs possibles de ce nouveau test ont alors un sous espace
d'observation O' restreint et déterminé par le calcul du seuil du test initial.
Pour une étude de la complexité globale de l'algorithme, on peut se reporter à
[Manago, 1988], [Crémilleux, 1991].
219
Le traitement des descriptions biologiques: KATE et CaseWork
7.2 De l'induction au raisonnement par cas
Depuis une dizaine d'années, la technologie de l'induction a été utilisée pour
faciliter la mise en œuvre d'un projet de système expert. Au lieu de demander à
un expert humain de fournir lui-même des règles logiques qui modélisent son
savoir-faire, on lui demande de constituer une base d'exemples représentative
de son domaine. Les connaissances nécessaires au système expert sont ensuite
extraites par induction à partir des exemples. Cette base de connaissances se
présente sous la forme d'un arbre de décision ou de règles.
Considérons une base d'exemples pour notre application de détermination
d'éponges marines (figure 7.2) :
cas
Ex1
Ex2
Ex3
...
Classe
Forme(corps) Extrémité(dents)
Paradisconema
Ellipsoïde
Elargies
Coscinonema
Conique
En-lancette ...
Corynonema
Ellipsoïde
En-lancette ...
...
...
...
...
...
...
Fig. 7.2 : Exemples sous la forme d'un tableau de données
Le but est de reconnaître efficacement une classe à partir de ses caractéristiques.
L'algorithme d'induction KATE permet de construire automatiquement un arbre
de classification tel celui de la figure 7.3. Cet arbre de décision peut dans un
deuxième temps être exploité pour déterminer un nouveau cas : les nœuds
intermédiaires de l'arbre correspondent à des questions posées à l'utilisateur, les
feuilles ou nœuds terminaux correspondent à la conclusion donnée par le
système expert.
extremité(dents)
en-lancette
élargies
forme(corps)
ellipsoide
Corynonema: ex3
Paradisconema: ex1
conique
Coscinonema : ex2
Fig. 7.3 : Un arbre de classification (ou de décision)
220
Chapitre 7
7.2.1 Formalisation de la procédure de détermination
Une détermination à partir d’un arbre de décision se fait en débutant à la racine
de l’arbre T, que nous appellerons d0. A chaque nœud de T, se trouve un critère
de détermination di = (Ai, Vi, E) :
- Ai est le nom d’un attribut (Ai [ Yi ∪ Si),
- Vi est l’ensemble des valeurs observables de Ai, Vi = {v1,...,vi,...,vn},
- E est l’ensemble des exemples w restant au nœud d.
Le cas w à déterminer est apparié à di = d 0, puis en fonction de la (ou des)
valeur(s) qu’il prend pour l’attribut Ai, le (ou les) nœud(s) fils di’ devien(nen)t
candidat(s) pour l’(les) appariement(s) suivant(s). La procédure s’arrête lorsque
l’on atteint une (les) feuille(s) libellée(s) par un nom de concept. Ce nom devient
le résultat de la détermination. Lorsque plusieurs feuilles sont atteintes, le résultat
est une combinaison de concepts avec des coefficients de vraisemblance associés
à chacun d’eux, et calculés en fonction du nombre d’exemples indexés à chacune
des feuilles.
Soit D = Dn ∪ Dt = {d i}, l’ensemble des nœuds de T.
Dn = {d n} est l’ensemble des nœuds intermédiaires,
Dt = {d t} est l’ensemble des nœuds terminaux.
Le parcours de l’arbre pour la détermination est exprimé par l’algorithme récursif
suivant :
Algorithme :
Début :
di = d0,
Apparier (w, di)
si
di ∈ Dt alors
Ai (w) = ci ⇒ w ∈ {ci}
sinon
Pour tout vi ∈ di
si yi (w) = vi alors Apparier (w, di’)
Fin pour tout
Fin si
Fin.
7.2.2 Limites de l'approche inductive
Le traitement des descriptions biologiques: KATE et CaseWork
221
7.2.2.1 Apprentissage automatique = perte d'information
Toutes les techniques issues de l'apprentissage, qu'elles soient empiriques ou
analytiques, présentent un certain nombre de limites inhérentes à l'approche.
Pour l'induction à partir d'exemples, c'est-à-dire à partir de la représentation en
extension des classes à apprendre (des descriptions de spécimens), l'algorithme
va dériver une représentation en intension (une caractérisation) des classes par
des concepts. Il en résulte des définitions différentielles (ou diagnoses)
permettant de délimiter les concepts les uns des autres.
Cette représentation en intension s'accompagne d'une généralisation des
exemples, de façon à prendre en compte des individus autres que les exemples
eux-mêmes. Les généralisations peuvent être obtenues à l'aide de diverses
techniques mais quelle que soit celle choisie, on va perdre de l'information
contenue dans les exemples. C'est à la fois l'avantage de l'approche et son
inconvénient car on risque d'éliminer une information utile. Tout l'art consiste à
déterminer quelles sont les informations utiles qui doivent apparaître dans la
définition en intension des concepts. Malheureusement, pour certaines
applications (dont celles en biologie), il est impossible de prédire à l'avance
quelles sont les informations importantes qu'il faut conserver.
7.2.2.2 Gestion de l'inconnu en phase de consultation
Considérons l'arbre d'identification de la figure 7.3. En phase de consultation, le
système expert de reconnaissance d'éponges va d'abord demander à l'utilisateur
comment est l' “extrémité des dents”. Supposons que ce dernier ne soit pas en
mesure de répondre (la réponse est «inconnu»). L'inférence suit les deux
branches “en-lancette” et “élargies” puis combine les réponses aux feuilles de
l'arbre. Dans la branche “élargies”, nous obtenons un diagnostic partiel
(Paradisconema avec 1 exemple). Dans la branche “en-lancette”, le système
expert demande ensuite quelle est la forme du corps. L'utilisateur répond
“conique”. Le système expert conclut alors qu'il s'agit de Coscinonema (0.5) ou
de Paradisconema (0.5), ce qui dénote que ces deux conclusions sont également
possibles. Ce diagnostic incertain est obtenu en combinant les exemples aux
deux feuilles de l'arbre que nous avons atteint au cours de la consultation comme
indiqué dans la figure 7.4 :
222
Chapitre 7
extremité(dents) = ???
en-lancette
élargies
forme(corps) = conique
ellipsoide
Corynonema: ex3
Paradisconema: ex1
conique
Coscinonema : ex2
Fig. 7.4 : Consultation de l'arbre de décision de la figure 7.3
Pourtant lorsque nous regardons la forme du corps de ex1, nous nous
apercevons que celle-ci est “ellipsoide”. Il y a donc une incohérence avec les
informations fournies par l'utilisateur puisque le cas courant a la forme du corps
“conique”. Le cas courant ne peut donc pas être une Paradisconema. Le système
expert n'a pas fait cette conclusion car l'information sur la forme du corps de
ex1, présente dans les données originales, a été délaissée suite à la phase
d'induction. Ce problème se retrouve dans tout raisonnement à partir de
connaissances générales (acquises par apprentissage ou non).
On pourrait objecter que lorsque les exemples d'apprentissage présentent des
configurations de valeurs inconnues analogues à celles rencontrées durant la
consultation, nous obtiendrions le bon résultat. En fait, pour de nombreuses
applications du monde réel, il serait absurde de constituer une base d'exemples
comprenant toutes les configurations d'inconnu possibles. Il semble aussi
fallacieux de présenter comme un enrichissement de la connaissance
l'accumulation de non-information !
7.2.2.3 Rigidité de la consultation interactive
Mis à part le problème des réponses inconnues, le raisonnement à partir d'arbres
de décision présente d'autres limites. Le raisonnement est trop dirigiste et
l'utilisateur est contraint de répondre aux questions dans un ordre pré-déterminé
et rigide. Si ce mode de consultation est adapté pour des utilisateurs naïfs, il ne
l'est plus lorsque l'utilisateur final est un expert du domaine. En effet, l'expert se
lasse vite de ce jeu des questions-réponses alors qu'il estime pouvoir fournir
directement l'information discriminante. Il est éventuellement prêt à répondre à 2
ou 3 questions complémentaires si cette information est insuffisante pour
conclure, mais il veut rester maître de la consultation et entend suivre son propre
raisonnement plutôt que la progression “artificielle” de la déduction.
De plus, le problème de tous les systèmes experts à base de règles de production
(ou d'un arbre de décision) est qu'ils sont incapables de court-circuiter leur
mécanismes habituels devant un cas particulier alors que des experts humains
prennent parfois une décision brusque simplement parce que par exemple la
Le traitement des descriptions biologiques: KATE et CaseWork
223
situation présente leur rappelle une situation grave analogue rencontrée dans le
passé : à ce moment, ils n'ont pas besoin de cerner progressivement une
hypothèse explicative comme ils le font d'habitude. La remémoration des faits
fondée sur des ressemblances frappantes ou airs de famille [Wittgenstein, 1953]
ayant une importance primordiale dans l'intellect humain, il nous a semblé
intéresssant de pouvoir étudier ce type de raisonnement analogique en phase
d'identification d'une nouvelle observation.
7.3 Le raisonnement par cas
7.3.1 Généralités
Le raisonnement par cas (“case-based reasoning”) est le nom donné aux
techniques de résolution de problèmes qui font appel aux expériences passées
plutôt qu'à un corpus de connaissances synthétisées [Bareiss, 1989]. La
distinction essentielle entre le raisonnement par cas et d'autres méthodes
automatiques de raisonnement est qu'un nouveau problème est résolu en
reconnaissant sa similitude avec des problèmes résolus précédemment, puis en
transférant leurs solutions.
Certains auteurs affirment que le raisonnement par cas est une forme de
raisonnement analogique qui se place dans le cadre strict d’un domaine. Les
recherches analogiques se situent dans le contexte plus global de trouver les
analogies entre différents domaines [Burstein, 1989], [Hall, 1989].
D'autres auteurs définissent plus formellement le raisonnement par analogie
comme étant un processus de démonstration du quatrième terme à partir des trois
premiers [Bourrelly & Chouraqui, 1985]. Il enchaîne deux phases, comparaison
et transfert, prenant appui sur la reconnaissance implicite d'une dépendance entre
les éléments constituant la seconde paire de l'analogie (figure 7.5) :
Comparaison
Dépendance
A
=
B
C
?D
Transfert
Fig. 7.5 : L'analogie selon Bourrelly et Chouraqui (1985)
224
Chapitre 7
L'exemple de la figure 7.6 permet d'illustrer ce point de vue [Vogel, 1988]. Les
symptômes de l'incident à diagnostiquer sont mis en rapport avec des
symptômes déjà rencontrés pour permettre le transfert du diagnostic
correspondant sur l'incident actuel :
Comparaison
symptômes
Dépendance
diagnostic
=
symptômes actuels
?diagnostic actuel
Transfert
Fig. 7.6 : L'explication sur anomalies connues
Enfin, d’autres auteurs plus synthétiques [Aamodt & Plaza, 1994] englobent
dans le terme “raisonnement par cas” l’ensemble des méthodes de raisonnement
fondées sur les exemples, les instances, la mémoire, les cas, l’analogie
(exemplar-based, instance-based, memory-based, case-based, analogy-based
reasoning). Toutes ces méthodes partagent les mêmes traitements qui sont les
tâches à réaliser pour obtenir un système de raisonnement par cas :
1) Rechercher le(s) cas le(s) plus similaire(s),
2) Réutiliser l’information et la connaissance du (des) cas pour résoudre le
problème,
3) Réviser la solution proposée,
4) Retenir la partie de cette expérience qui pourrait être utile à la résolution
d’un nouveau problème.
Les expériences passées (les “cas”) qui sont utilisées au cours du raisonnement
peuvent avoir été acquises par le système ou avoir été fournies au départ. Par
contraste, les autres formes de résolution de problèmes, comme l'induction ou le
raisonnement à base de règles, dérivent la solution à partir d'une caractérisation
générale d'un groupe de problèmes ou à partir d'un ensemble de connaissances
encore plus générales.
Les travaux de recherches menés au cours de ces dernières années ont montré
que différentes classes de problèmes peuvent être traitées à l'aide de techniques
de raisonnement par cas. Outre les problèmes de classification (voir en particulier
[Kolodner J.R & Kolodner R.M., 1985], [Kibler & Aha, 1987], le
raisonnement par cas a été utilisé pour des problèmes de planification [Kolodner,
1987], [Simpson, 1985], de raisonnement légal à partir de la jurisprudence
[Ashley, 1987], [Bain, 1986], pour une gestion dynamique de la mémoire
[Kolodner, 1983a], [Kolodner, 1983b], la reconnaissance de la parole
[Bradshaw, 1987], la prononciation de mots [Stanfill & Waltz, 1986], [Lehnert,
Le traitement des descriptions biologiques: KATE et CaseWork
225
1987], la détermination des structures secondaires de protéines [Zhang et al., (à
paraître)], etc..
7.3.2 Notre procédure de raisonnement par cas : CaseWork
En nous plaçant dans le cadre de la définition sous forme de tâches du
raisonnement par cas [Aamodt & Plaza, 1994], CaseWork effectue les deux
premiers traitements, c’est-à-dire Rechercher et Réutiliser. Les deux autres
tâches (Réviser et Retenir) font partie de la procédure de validation qui est
assurée par l’expert dans notre méthodologie d’acquisition des connaissances
(voir § 2.4). Notons aussi que la réutilisation n’est qu’une copie du résultat (le
nom du concept associé à l’attribut Classe du cas similaire) et qu’il n’y a pas
d’adaptation de la solution proposée par transformation ou dérivation, telle
qu’elle est expliquée dans [Carbonell, 1986].
Pour notre exemple, au lieu de raisonner sur le cas courant avec un arbre de
décision, le système part directement de la base de cas de références. Nous
utilisons une technique de base analogue à celle utilisée dans le système
d'induction KATE (optimisation du gain d'information) mais, au lieu
d'engendrer complètement une structure statique d'arbre de décision puis
d'oublier les exemples d'apprentissage, nous raisonnons directement sur les
exemples pour engendrer dynamiquement un chemin dans un arbre (fictif et
implicite) qui correspond au cas courant. Les autres branches de l'arbre, qui
n'ont pas d'intérêt pour le cas courant, ne sont pas développées.
Ce module de raisonnement par cas permet de mieux traiter le problème des
réponses inconnues en phase de consultation et d'avoir un outil flexible
totalement guidé par l'utilisateur. En effet, en phase de construction de l'arbre de
décision, les critères sont ordonnés à chaque nœud en fonction de leur pouvoir
discriminant comme on peut le voir sur la figure 7.7.
En phase d'induction, à chaque nœud de l'arbre, seul le premier critère (celui qui
a le meilleur gain) est utilisé pour construire l'arbre globalement optimal en terme
d'efficacité (cet arbre cache la forêt des autres arbres possibles !). Pour la figure
ci-dessous, c'est la forme du corps qui est choisie à la racine pour générer l'arbre
de décision (le gain d'information est égal à 1). La forme homogène de l'arbre
(bien équilibré) traduit cette efficacité.
Pour le raisonnement par cas, aucune structure d'arbre n'est générée. Il suffit
que l'utilisateur réponde «inconnu» à un nœud correspondant à la question
associée au premier critère pour que le système remplace ce critère non renseigné
par son successeur ayant un pouvoir de discrimination juste inférieur, et ainsi de
suite jusqu'à épuisement de la liste des critères si l'utilisateur n'a aucune
information à apporter en réponse aux questions posées (ce qui n'est pas réaliste
226
Chapitre 7
!)2. Pour la figure 7.7, si l'utilisateur ne connait pas la forme du corps de
l'éponge, le système lui posera la question sur la longueur du rayon distal des
pinules dermaux.
Fig. 7.7 : Visualisation des critères ordonnés à la racine de l'arbre de décision (<top>)
Pour notre exemple simple, cela donne la figure 7.8 suivante :
extremité(dents) = ???
forme(corps) = conique
ellipsoide
Corynonema: ex3
Paradisconema: ex1
conique
Coscinonema : ex2
Fig. 7.8 : Une procédure de raisonnement par cas
2
La procédure de remplacement se poursuit jusqu'à ce que l'on atteigne un critère avec un gain
d'information égal à zéro. Si c'est le cas, chaque branche correspondant à la liste des valeurs
possibles de cet attribut est parcourue en récupérant les exemples conformes à la valeur. Le gain
d'information est réévalué sur chaque sous-arbre et les conclusions apportées sont pondérées en
fonction de leur fréquence d'apparition et du nombre d'exemples correspondants.
Le traitement des descriptions biologiques: KATE et CaseWork
227
Le fait que l'utilisateur ne sache pas répondre à la question sur l'extrémité des
dents provoque le remplacement de ce critère par le second le plus discriminant :
on arrive ainsi à déterminer totalement le nouvel individu en utilisant toute
l'information disponible dans la base de cas.
En fait, les deux critères “extrémité(dents)” et “forme(corps)”, au vu du tableau
de la figure 7.2 (et non de la figure 7.5), ont un gain d'information identique : ils
discriminent les exemples avec la même probabilité. Théoriquement, rien ne
justifiait donc le choix du premier critère pour la consultation au lieu du second
car la mesure du gain d'information ne tient pas compte du contenu du message
véhiculé par le critère.
Néanmoins, il est tout à fait possible de tenir compte d'un ordre sur les critères à
utiliser en fonction d'une sémantique donnée lorsque ceux-ci ont le même
pouvoir de discrimination : par exemple, l'expert peut indiquer dans le modèle
descriptif une priorité d'utilisation liée à la facilité d'observer l'attribut (il est plus
facile d'observer visuellement la forme du corps que l'extrémité des dents au
microscope). Cette connaissance explicite supplémentaire peut donc être mise à
contribution en phase de détermination pour améliorer la robustesse de la
consultation.
7.3.3 Formalisation
La procédure de raisonnement par cas que nous avons développée dans
CaseWork peut être décrite par l’algorithme suivant. Il explicite les deux tâches
qui permettent de retrouver les cas “similaires” : Rechercher et Réutiliser. La
méthode utilise toujours le gain d’information comme mesure de discrimination.
Aucun nœud n’est construit, les critères choisis ne servent qu’à indexer les cas :
Algorithme :
Début :
E = Ω,
Rechercher (w, E, Y)
si
Critèred'Arrêt (E) alors
w ∈ {ci}
; Réutiliser
sinon
Y = ConstruireEspace (E) ; Récupèrer les attributs pertinents
s = OrdonnerCritères (E, Y) ; Ordonner les attributs
Ei = Sélectionner (w, s, E)
Rechercher (w, Ei, Y)
Fin si
Fin.
228
Chapitre 7
Sélectionner (w, s, E)
A = Meilleure_division (E, s)
si GainInformation (A) = 0 alors
partition = R (E)
Pour tout Ei ∈ partition
Rechercher (w, Ei, Y)
Fin Pour tout
Fin si
si A (w) = ∅ alors
Sélectionner (w, s\A, E)
Fin si
Pour tout wi ∈ E
Ei = {w i / A (wi) = yi (w) = v i}
Fin pour tout
; “\” est le symbole d’exception
; comparer les anciens cas avec celui
; à identifier et les sélectionner
retourner Ei
7.3.4 Comparaison des deux approches
L'approche “raisonnement par cas” pour la détermination correspond à une
méthode d'identification par comparaison des descriptions. Il n'y a pas
généralisation des exemples sous la forme d'un arbre de décision. Elle s'oppose
en cela à l'approche déductive d'utilisation d'un arbre sous la forme d'une clé
d'identification qui représente une classification artificielle préexistante. Notre
procédure de raisonnement par cas peut être comprise comme une recherche
multi-accès orientée et séquentielle mono-critère :
1) Elle est orientée car la recherche est guidée par la quantité d'information
véhiculée par chaque attribut, de manière à aboutir à une identification
rapide. Elle est multi-accès du fait des possibilités de remplacement d'un
critère par un autre lorsque l'utilisateur ne sait pas répondre au premier.
2) Elle est séquentielle et mono-critère du fait que la recherche ne se base pas
sur une combinaison de critères associés (disjonctions de critères en
parallèle) à un moment donné de la procédure de consultation, mais sur une
séquence ordonnée dans le temps d'un seul critère à la fois (conjonction de
critères en série).
Le traitement des descriptions biologiques: KATE et CaseWork
229
La comparaison basée sur le choix d'un seul critère à un moment donné est
analytique. Elle est aussi qualifiée de monothétique [Pankhurst, 1991] ou
mono dimensionnelle [Fenelon, 1981]. La mesure d'entropie utilise la liste des
attributs disponibles à chaque étape pour évaluer leurs différents pouvoirs de
séparation des exemples conditionnellement aux différentes classes présentes.
De ce fait, on peut qualifier le gain d'information comme une mesure de
discrimination inter-classe. Dans cette méthode, on s'intéresse à la distribution
relative des exemples par rapport aux valeurs possibles de chaque attribut, c'està-dire que l'on compte les exemples par rapport aux attributs. Ici, ce sont les
attributs qui sont comparés entre eux, ce qui revient à travailler sur la définition
en intension des concepts.
D'autres procédures de détermination comparent les exemples entre eux, c'est-àdire à partir de la représentation en extension des classes. Ces méthodes sont
polythétiques car elles étudient toutes les configurations possibles
d'appariement des exemples à chaque étape de la division. Ce sont des méthodes
synthétiques d'analyse multi-dimensionnelle des données [Bertier & Bouroche,
1981]. Elles se basent sur une mesure de proximité entre les exemples
appartenant à une même classe comme par exemple pour la recherche des k plus
proches voisin en analyse discriminante [Celeux et al., 1989]. Ces mesures de
ressemblance tenant compte de l'homogénéité des descriptions à l'intérieur d'une
même classe sont des mesures intra-classe. Une distance est calculée pour
évaluer la similarité entre les exemples qui sont appariés deux à deux. Cette
approche tient compte de tous les attributs à la fois parce qu'elle compte les
identités et les différences au niveau des valeurs prises par les attributs par
rapport aux exemples : il s'agit d'un comptage des attributs par rapport aux
exemples.
L'avantage d'une procédure de raisonnement par cas par rapport à une procédure
de détermination déductive (ou associative) est son incrémentalité. Casework
prend en compte tous les cas qui sont actuellement dans la base. Contrairement à
KATE, il n'est plus nécessaire de passer par une phase de mise à jour et
d'engendrer un nouvel arbre lorsqu'on rajoute un nouvel exemple.
Sa difficulté est que justement, elle contraint à travailler sur la quasi-totalité de
l'information disponible, ce qui peut s'avérer d'une lourdeur insurmontable pour
les méthodes polythétiques. En ce qui concerne notre méthode monothétique,
nous n'avons jusqu'à présent pas rencontré de problèmes d'efficacité même pour
des applications volumineuses dans d'autres domaines que la biologie. Le
nombre de cas considérés se réduit très rapidement au fur et à mesure des
questions et le temps de calcul du meilleur critère, compte tenu de l'efficacité de
la méthode, n’est pas une contrainte d’utilisation.
Donc, le raisonnement par cas peut se substituer avantageusement à l'induction
pour la phase de consultation interactive. En revanche, il ne permet pas
230
Chapitre 7
d'acquérir des connaissances explicites sur le domaine à partir de la base de cas.
Le processus inductif extrait des connaissances à partir des données
d'apprentissage sous la forme d'un arbre de décision ou d'une base de règles.
Ces connaissances peuvent être exploitées d'une part pour mieux comprendre le
domaine d'application, d'autre part pour déterminer si le domaine a été bien
formalisé. La présence de conclusions incertaines aux feuilles de l'arbre peut
indiquer que le domaine a été mal défini et qu'il faut rajouter de nouveaux
critères pour décrire les données. Les autres avantages respectifs des deux
approches sont décrits dans [Manago et al., 1993] (voir annexe 6).
Les deux technologies de l'induction et du raisonnement par cas sont donc
complémentaires. L'induction permet d'acquérir et de valider une base de
connaissances. Le raisonnement par cas permet de maintenir l'application et
améliore la qualité des consultations. Ces deux technologies sont en cours
d’intégration dans le cadre du projet européen INRECA en collaboration avec
Irish Medical System (Irelande), tecInno et l’Université de Kaiserslautern
(Allemagne). La combinaison des deux approches permettra de mieux répondre
aux besoins des utilisateurs en améliorant la robustesse de la détermination.
CONCLUSION
8.1 Résultats
Dans cette thèse, nous avons mis au point une méthode opérationnelle
d'acquisition des connaissances pour les domaines biologiques. Cette méthode
est constituée d'une chaîne en trois parties : acquisition de l'observable avec
élaboration d'un modèle descriptif, acquisition de l'observé (les cas) à l'aide
d'un questionnaire interactif, puis traitement de ces connaissances (observable
et observé) à des fins de classification et/ou de détermination. Les outils
permettant de créer le modèle et le questionnaire ont été conçus pendant cette
thèse (HyperQuest), ainsi que le module de raisonnement par cas (CaseWork)
pour l'objectif de détermination. Pour la classification, nous sommes partis de
travaux sur le logiciel KATE [Manago, 1991].
Afin de mettre au point notre méthode, nous nous sommes appuyés sur une
application concrète au Muséum National d'Histoire Naturelle de Paris et sur la
disponibilité d'un expert du domaine des éponges marines.
Au départ de ce travail, notre objectif était d'obtenir des résultats de
consultation robustes face à un utilisateur donnant des réponses «inconnu» aux
questions posées par le système expert pour déterminer un nouvel individu.
Une méthode de raisonnement par cas, expliquée au chapitre 7, permet de
pallier ce type de “bruit” dans la phase de détermination.
Mais nous savions aussi par d’autres expériences menées à l’INRA en
pathologie végétale que la robustesse de la consultation dépendait de la qualité
des descriptions, c’est-à-dire de la capacité de l’utilisateur à “savoir décrire” à
l’aide d’un questionnaire. De même, cette exigence de qualité des descriptions
est primordiale pour pouvoir construire des classifications artificielles à partir
des exemples.
Or, avant de “savoir décrire”, il faut “savoir observer” : le questionnaire devait
donc avoir le rôle de guide d’observation afin d’obtenir des descriptions
robustes. La conception d’un guide demande la formalisation d’un bon modèle
de description sur lequel on peut ensuite bâtir un questionnaire.
232
Chapitre 8
Nous avons alors plutôt accentué notre effort sur la partie “modélisation” des
connaissances implicites de l’expert, c’est-à-dire l’observable en amont de la
phase de traitement : il s'agit non pas de modéliser le raisonnement de l'expert,
mais plutôt son “savoir observer”.
Nous avons donc conçu HyperQuest pour donner la possibilité à l'expert
d'expliciter son propre modèle d’observation. Les connaissances de bon sens
lui apparaissent alors sous forme graphique et structurée et donnent une vision
réelle des trois dimensions des descripteurs : objets, attributs et valeurs.
Avant de constituer un modèle descriptif, l'expert n'est pas toujours conscient
de sa propre manière d'observer. Concrétiser un modèle d'observation sur un
écran d’ordinateur lui renvoie l’image présente de ses connaissances sur son
domaine.
Cette matérialisation prend deux formes :
1) La première, liée à l’observable, lui montre les relations qu’entretiennent les
objets entre eux dans des arbres de composition et de spécialisation : c’est
une vue globale de son propre modèle de description qu'il ne faut pas
confondre avec l'arbre de décision issu de la classification. Nous avons pu
dégager ainsi un certain nombre de mécanismes d'observation que l'on
retrouve dans la littérature en systématique (chapitre 4) et qui constituent la
trame d'un véritable guide de description.
L'outil permettant de créer et de modifier interactivement ce modèle
descriptif ainsi que de le visualiser graphiquement a été développé à partir
de la découverte de ces mécanismes.
2) L’autre, liée à l’observé, fait plonger l’expert au niveau des descriptions
individuelles grâce au questionnaire instanciant son modèle d’observation.
Nous avons montré l'importance de reproduire des descriptions naturelles,
c'est-à-dire fondées sur des spécimens et non pas sur des concepts.
L'objectif au Muséum est de multiplier le nombre de descriptions par classe
pour exprimer sa diversité plutôt que de favoriser les regroupements de
descriptions au sein d'une seule définition de concept (ce qui débouche sur
des choses non observables, trop larges par rapport à la réalité). Cela permet
de plus de valoriser les collections, en déléguant le travail de généralisation
des descriptions à un outil d'induction, puis de comparer les résultats avec
ceux d'une classification naturelle établie par l'expert.
Pour acquérir l'observé, nous avons construit un générateur de questionnaire
interactif multimédia dont l'intérêt est d’automatiser la fabrication de
questionnaires à partir d’un modèle de l'observable tout en tenant compte
des capacités d'observation des utilisateurs.
233
Conclusion
Le questionnaire généré est personnalisable par l'expert et adopte le dialogue
structuré de son modèle descriptif (l'ordre des objets). Pour l'objectif de
détermination, il est utile de faire participer d'autres utilisateurs au remplissage
de la base de cas à apprendre, le classement étant toutefois du rôle de l'expert.
En effet, la variabilité des manières d'observer et de comprendre le vocabulaire
spécialisé est un obstacle supplémentaire à de bonnes déterminations. Les
descriptions restent comparables entre elles puisqu'elles suivent le même
schéma, et il est préférable de les intégrer dans la même base de cas même si
elles proviennent d'utilisateurs hétérogènes.
Pour l'expert, ce travail répétitif de description peut sembler routinier et peu
valorisant comparé à la tâche de classification. Néanmoins, décrire fait partie
du travail quotidien du systématicien ; cela est nécessaire pour classifier s'il
veut accentuer sa familiarité avec ses objets d’étude, ce qui l’amène un jour à
découvrir certains caractères de différenciation des spécimens et émettre des
hypothèses sur les classes : ainsi, l'observation et la description peuvent
conduire à la découverte en révélant certaines régularités qu'il faudra par la
suite mettre à l'épreuve de nouveaux faits. C'est ainsi qu'il applique la méthode
scientifique : conjecturer et tester [Pólya, 1967] que nous pouvons interpréter
en biologie par le schéma suivant (figure 8.1) :
robustesse
--> conjecturer
classe
description(s)
concept
<-- tester
Fig. 8.1 : Conjecturer et Tester
234
Chapitre 8
Les tests peuvent revêtir deux formes :
1) la détermination de nouveaux faits par l'utilisation de l'arbre de
classification, en utilisant la définition en intension associée au concept.
2) l'identification de nouvelles observations par comparaison avec des
descriptions de spécimens représentant l'extension associée à la classe.
C'est par un aller et retour entre l'approche inductive et déductive que l'expert
sera capable de valider les connaissances apprises dans le but d'affiner les
règles caractérisant ses descriptions.
Le biologiste adopte naturellement la démarche inductive alors que le
mathématicien habitué aux démonstrations raisonne plutôt à l'inverse à l'aide
de la déduction. Le rôle de l'informaticien est de faire travailler ce système en
procurant les outils de mise en œuvre de la méthode scientifique en biologie.
L'amélioration de la robustesse tient alors à la capacité de l'informaticien de
faire communiquer deux démarches : la première expérimentale (celle des
biologistes) et la seconde fondée sur un raisonnement académique
(mathématiciens).
Néanmoins, cette méthode de validation après le traitement est nécessaire mais
pas suffisante : elle permet principalement de valider l'observé (les
descriptions) plus que la validation de l'observable (voir figure 2.4).
Nous nous sommes en effet aperçu qu'une partie non négligeable de
l'élaboration du modèle descriptif a lieu en amont de la phase d'induction au
moment de l’acquisition des exemples. Par un processus de validation croisée
du modèle par des descriptions, au fur et à mesure qu'il décrit, l'expert va
penser à des descriptions plus proches de la réalité observée (les exceptions qui
traduisent les extrèmes de la variabilité intra-spécifique).
Par exemple, le questionnaire n’oublie jamais de demander une confirmation
sur la pertinence de certains caractères non décrits, mais qui devraient l'être
pour se conformer au modèle descriptif. Cela oblige l’expert à fournir des
descriptions cohérentes et exhaustives, sinon il est amené à modifier son
opinion sur son propre modèle de description. Il va alors chercher à l’affiner et
à répercuter ses observations dans le modèle descriptif, puis dans les exemples.
Conclusion
235
8.2 Limites actuelles
Notre méthode demande que le modèle descriptif soit complet par rapport à un
domaine bien délimité. L'exhaustivité de l'observable est une exigence
théorique très difficile pour l'expert : elle est néanmoins recherchée pour ne pas
devoir changer en profondeur la structure du modèle descriptif, ce qui aura
pour conséquence de devoir modifier les anciens cas “à la main”.
En effet, nous n'avons pas encore conçu les outils de maintien de la cohérence
de l'ancienne base de cas par rapport aux changements effectués dans un
nouveau modèle descriptif (élimination d'objets, d'attributs ou de valeurs
possibles, rajout d'objets, changement dans la structure de description, etc.).
Cette phase de mise à jour des données par rapport à un modèle de l'observable
est une des perspectives à prendre en compte dans une prochaine étape pour la
robustesse du système global : il n'est pas possible de tout prévoir dès le départ
dans le modèle.
Pour ce même modèle, nous n'avons pas non plus conçu l'éditeur permettant de
renseigner les règles contextuelles entre les objets et les attributs observables :
par exemple, l'expert ne peut pas indiquer le fait que, lorsque le nombre des
orifices de la face exhalante est unique, alors ce n'est pas la peine de répondre
aux attributs “répartition” et “localisation” des orifices.
Au niveau du traitement des descriptions, nous n'avons pas encore pu mesurer
sur notre application l'intérêt d'intégrer les approches inductive et analogique
pour “savoir raisonner” à des fins de classification et de détermination en
biologie. Cette intégration est l'objet du projet INRECA en cours dont
l'annexe 5 donne un aperçu. Plus spécifiquement, nous souhaiterions associer
une sémantique au niveau du critère de séparation des classes pour ne pas tenir
compte uniquement de son efficacité de discrimination inter-classe : ceci se
comprend bien pour la détermination où il faut arriver rapidement à une
conclusion mais pas forcément pour la classification : le critère mono
dimensionnel du gain d'information est pauvre et peu significatif surtout
lorqu'il reste peu d'exemples à comparer. De plus, un choix arbitraire est
effectué lorsque deux critères ont un pouvoir de discrimination identique. Il
serait bon de faire intervenir d'autres paramètres d’un niveau plus sémantique
que la seule entropie dans la mesure (méta-connaissance sur les objets
prioritaires par rapport aux autres, facteurs de tolérance aux bruits, etc.).
De même, notre outil d'induction comporte certains biais dans sa manière
d'élaborer une classification artificielle. Certains attributs ont un pouvoir de
discrimination intrinsèque plus important du fait du nombre de valeurs
possibles qu'ils possèdent : la forme du corps de l'éponge contient 17 valeurs
lorsqu'elle est traitée sans considérer son type classifié, alors qu'elle ne devrait
en compter que 5 en tenant compte de la taxonomie introduite par l'expert
236
Chapitre 8
(c'est-à-dire les cinq nœuds intermédiaires). KATE transforme aussi des
disjonctions d’imprécision dans les exemples en conjonction de variation au
moment de la détermination d’une nouvelle observation. On considère ici la
variation comme une forme d’imprécision, ce qui justifie un traitement
identique des exemples. De plus, le traitement des intervalles pour les attributs
numériques n'est pas optimal quant au choix des seuils : le lecteur peut se
référer aux travaux de [Fayyad & Irani, 1993]. Il serait donc utile d'étudier
d'autres possibilités de discrétisation que celle de la binarisation de l'attribut
dans KATE.
KATE et CaseWork ont été mis à l'épreuve sur d'autres applications non
biologiques (attribution de crédits bancaires, aide à la photo-interprétation,
diagnostic de pannes, etc.). Dans celles-ci, les connaissances pouvaient se
réduire à un tableau de données classique. Dans notre application, KATE doit
être capable de traiter les objets multi-instanciés correspondant aux objets
horde formalisés par [Diday, 1987] et repris par [Conruyt et al., 1992] sous
l’appellation horde composite. Cela signifie de savoir gérer des appariements
multiples entre descriptions pour respecter l'homologie des objets et non pas
seulement une unification directe entre deux objets de même nom appartenant
à des descriptions différentes : les travaux de [Perinet-Marquet, 1993] sur les
structures itératives sont un début de recherche dans ce sens.
Enfin, il reste aussi la limite suivante : nos outils d'acquisition de l'observable
et de l'observé ont été testés à partir d’un modèle de description issu d'une
seule application (Hyalonema). Il faudrait étudier d'autres classes zoologiques
pour expérimenter les logiciels et montrer ainsi le bien fondé de notre méthode
d'acquisition de connaissances descriptives pour aider les systématiciens dans
leurs recherches. Si KATE et CaseWork sont déjà commercialisés par
AcknoSoft, le logiciel HyperQuest a quant à lui atteint un niveau de prototype
avancé avec une documentation associée [Conruyt & Dumont, 1993].
8.3 Perspectives
L'expérience nous montre que la robustesse n'est pas simplement un résultat lié
au traitement des données, qui s'arrêtera à la validation des connaissances
apprises. C'est pour nous un processus incrémental qui s'inscrit dans la
continuité, en appliquant la méthode hypothético-déductive sur un même
domaine d'expertise, de manière itérative. Les domaines naturels sont
incomplets par nature car ils sont caractérisés par une grande variabilité
(multiples exceptions), une évolution des phénomènes à décrire (ex :
maladies) et des techniques d'observation de plus en plus précises (cytologie,
biochimie, ADN...). Il est alors difficilement concevable de modéliser “tout”
l'observable à un moment donné : le modèle descriptif est une photographie qui
Conclusion
237
reflète le domaine de discours et les connaissances instantannées de l'expert :
cela évolue nécessairement.
La validation des connaissances apprises (règles, arbre de décision) n’est pas
ainsi seulement un processus post-opératoire sur les données comme nous
pouvions le penser avant cette thèse. La qualité d'une classification artificielle
est dépendante de la précision et de l'exhaustivité des descriptions fournies. En
introduisant des connaissances “de fond” (le modèle descriptif), il s'agit pour
l'expert de valider l’expérience acquise mais non toujours explicite (les “savoir
observer” et “savoir décrire”) avant d'appliquer un raisonnement. Cette
caractéristique est à prendre en compte pour les perspectives de développement
d'outils d'aide à la validation de ce savoir en phase d'acquisition des exemples.
N'oublions pas que le temps consacré à cette phase est de loin le plus important
dans la méthode d’apprentissage utilisée.
Dans l'avenir, le rôle de l'informaticien désireux de concrétiser son travail de
recherche sur l’acquisition des connaissances ne se bornera pas à fournir des
outils de traitement des données (“classez, nous classifierons ensuite !”). Il lui
faudra assumer un rôle de cogniticien, prêt à s'investir avec la curiosité
nécessaire pour comprendre les difficultés inhérentes au domaine étudié. Il est
préférable qu'il parte d'ailleurs de problèmes concrets à résoudre et qui sont
posés par l'expert (par exemple, celui de traiter le biais introduit par la quantité
d'information des attributs classifiés dont on ne considère que les feuilles de la
taxonomie des valeurs possibles). C'est une démarche coopérative et
pluridisciplinaire qui doit partir des travaux existants pour améliorer la
robustesse des systèmes d'aide à la classification et à la détermination en
biologie.
Cette amélioration passe par la revalorisation de la notion de description dont
le schéma 8.1 montre le rôle central. Elle doit exprimer toute la richesse du
domaine naturel et refléter l'état des connaissances de l'expert à un moment
donné. Il ne suffit pas de savoir représenter des connaissances à l'aide d'un
langage à objets pour obtenir un système de détermination robuste. Il faut
pouvoir expliciter correctement la connaissance de l’expert en facilitant sa
structuration (facteurs de compréhension et de précision), apprécier sa diversité
(exhaustivité et redondance), et connaître sa sémantique pour les autres
utilisateurs de son système (compréhension, ergonomie et tolérance aux
bruits).
Le progrès technologique des ordinateurs permet de reconsidérer des pratiques
anciennes considérées comme utopiques à l’époque d’Adanson : les
descriptions de spécimens. Ces dernières sont compatibles avec les capacités
de stockage des machines actuelles, ce qui permet de conserver le maximum
d’information par rapport à des “descriptions” de concepts. Posons-nous donc
la question de savoir ce que sont les véritables qualités d'une donnée après le
238
Chapitre 8
travail énorme réalisé dans le domaine de leur analyse ! L'expert devra disposer
d'outils permettant de développer sa familiarité avec les spécimens. La
transmission de son savoir par un système expert de détermination passe alors
par une valorisation de son expérience. Celle-ci pourra s’acquérir à l'aide
d'outils de modélisation de son domaine pour acquérir des descriptions
robustes, puis de mise à l'épreuve de ses opinions par la construction de
classifications artificielles.
Ayant toujours comme référence le modèle observable et disposant
intégralement des exemples issus du modèle, ceux qui auront à utiliser ces
classifications profiteront de toute la connaissance explicitée à un moment
donné. Cela devrait permettre d'éviter de raisonner à partir de connaissances
comprises hors de leur contexte, non maîtrisées ou trop abstraites, puisque la
source même de ces connaissances aura été préservée.
L’amélioration de la robustesse des systèmes d’aide à la description, à la
classification et à la détermination des objets biologiques est donc le
préambule à l’élaboration d’outils de Taxonomie Assistée par Ordinateur plus
performants.
REFERENCES
Aamodt A. (1989). “Towards robust expert systems that learn from experience - an
architectural framework”, in J. Boose, B. Gaines, J. G. Ganascia (Eds.), EKAW-89, Third
European Knowledge Acquisition for Knowledge-Based Systems Workshop, pp. 311-326,
Paris, 1989.
Aamodt A . , Plaza E . (1994). “Case-Based Reasoning: Foundational Issues,
Methodological Variations, and System Approaches”, AICOM Vol. 7, n° 1, 1994.
Aguirre J.L. (1989). “Construction automatique de taxonomies à partir d’exemples dans un
modèle de connaissances par objets”, Thèse de l’INPG, Lab. Artémis-Imag, Grenoble, 1989.
Apple (1988). “Guide du langage HyperTalk”, 1988.
A r n a u l d A . , N i c o l e P . ( 1 6 6 2 ) . “La logique ou l’art de penser”, Flammarion, Paris,
1970.
Ashley K.D. (1987). “Modeling legal argument: reasoning with cases and hypotheticals”,
PhD Thesis, University of Massachusetts at Amherst, 1987.
Aubé M. (1991). “Cosmos 1001 : petite odyssée numérique”, texte présenté au congrès de
l'AMQ (Association Mathématique du Québec), Collège Edouard-Montpetit, Longueil, 1991.
Bailly C., Challine J.F., Ferri H.C., Glœss P.Y., Marchesin B. (1987). “Les
langages orientés objets”, Cépaduès (Eds.), Toulouse, 1987.
B a i n M . ( 1 9 8 6 ) . “A case-based reasoning system for subjective assessment, Actes de la
conférence AAAI sur l'intelligence artificielle, pp. 523-527, Morgan-Kaufmann, 1986.
Bareiss R . (1989). “Exemplar-Based Knowledge Acquisition: A Unified Approach to
Concept Representation, Classification, and Learning”, Academic Press, 1989.
Bareiss E . R . , Porter B . W . , Wier C . C . (1990). “Protos : An examplar-Based
Learning Apprentice”, Machine Learning : An Artificial Intelligence Approach, Volume III,
Morgan Kaufmann, San Mateo, CA, Kodratoff, Y. & R. S. Michalski, R. S. (Eds.), Ch. 4,
1990.
Benzecri J.P. (1973). “L'analyse des données”, tome I et II, Dunod, 1973.
Bertier P . , Bouroche J . M . (1981). “Analyse des données multidimensionnelles”,
P.U.F, Paris, 1981.
B l a n c a r d D . , B o n n e t A . , C o l e n o A . ( 1 9 8 5 ) . “TOM, un système expert en maladies
des tomates”, PHM & Revue horticole, n° 261, pp. 7-14, 1985.
Blancard D. (1988). “Maladies de la tomate : observer, identifier, lutter”, INRA & Revue
horticole, 1988.
Blythe J., Needham D., McDowell R., Manago M., Rouveirol C., Kodratoff
Y . , L e s a f f r e F . M . , C o n r u y t N . , Corsi P . (1988). “Knowledge Acquisition by
Machine Learning: The INSTIL project”, in ESPRIT 88 : Putting the technology into use,
vol. 1, pp. 769-779, North Holland, 1988.
242
Bobrow D.J., Winograd T. (1977). “An overview of KRL, a Knowledge Representation
Language”, Artificial Intelligence 8, pp. 155-173, 1977.
Bonnet A. (1984). “L'intelligence artificielle : promesses et réalités”, InterEditions, Paris,
1984.
Bourbaki N. (1974). “Eléments d'Histoire des Mathématiques”, Histoire de la Pensée IV,
nouvelle édition, Hermann, Paris, 1974.
Bourrelly L., Chouraqui E. (1985). “A formal approach to analogical reasoning”, in
M.M. Gupta, A. Kandel, W. Bandler, J.B Kiszka (Eds.), Approximate reasoning in expert
systems, North Holland, 1985.
Bove T . , Rhodes C . (1990). “Que's Macintosh Multimedia Handbook”, Que
Corporation, Carmel, Indiana, 1990.
Brachman R . J . (1977). “What’s in a concept: structural foundations for semantic
networks”, in International Journal of Man-Machine Studies, vol. 9, pp. 127-152, 1977.
B r a c h m a n R . J . , S c h m o l z e J . G . ( 1 9 8 5 ) . “An overview of the KL-ONE Knowledge
Representation System”, Cognitive Science, vol. 9, pp. 171-216, 1985.
Bradshaw G. (1987). “Learning about speech sounds: the NEXUS project”, Actes du
quatrième International Workshop on Machine Learning, pp. 1-11. Morgan-Kaufmann, 1987.
Breiman L., Friedman J.H., Olshen R.A., Stone C.J. (1984). “Classification and
regression trees”, Wadsworth, Statistics probability series, Belmont, 1984.
Breuker J., Wielenga B. (1989). “Models of expertise in knowledge acquisition”, in
Topics in Expert System design, G. Guida and C. Tasso (Eds), pp. 265-295, 1989.
Brito P . (1991). “Analyse de données symboliques. Pyramides d'héritage”, Thèse
d'université, Université Paris IX, Dauphine, 1991.
Brusca R.C., Brusca G.J. (1990). “Invertebrates”, Sinauer associates, Inc., Sunderland,
Massachusetts, 1990.
Buchanan B., Feigenbaum E. (1978). “Dendral and Meta-Dendral, their applications
dimension”, Artificial Intelligence, vol. 2, pp. 5-24, 1978.
Burstein M.H. (1989). “Analogy vs. CBR; The purpose of mapping”, Proc. of the CaseBased Reasoning Workshop, Pensacola Beach, Florida, Morgan Kaufmann, pp. 133-136, 1989.
Carbonell J. (1986). “Derivational analogy; A theory of reconstructive problem solving
and expertise acquisition”, Machine Learning : An Artificial Intelligence Approach, vol. 2, R.
S. Michalski & J. G. Carbonell & T. M. Mitchell (Eds.), pp. 371-392, Morgan Kaufmann,
San Mateo, CA, 1986.
Celeux G . , Diday E . , Govaert G . , Lechevallier Y . , Ralambondrainy H.
(1989). “Classification automatique des données”, Dunod (Eds.), Paris, 1989.
C e s t n i k B . , K o n o n e n k o I . , Bratko I . (1987). “ASSISTANT 86 : a knowledge
elicitation tool for sophisticated users”, Progress in machine learning, Proc. of EWSL'87, Bled
(Yugoslavia), Sigma Press, Wilmslow, pp. 31-45, 1987.
Chandrasekaran B. (1987). “Towards a functional architecture for intelligence based on
generic information processing tasks”, in Proc. of the 10th International Joint Conference on
Artificial Intelligence, pp. 1183-1192, Milan, Italy, 1987.
Chandon J.L., Pinson S . (1981). “Analyse typologique, théories et applications”,
Masson, Paris, 1981.
Références
243
Charlet J., Bachimont B., Bouaud J., Zweigenbaum P. (1994). “Ontologie et
réutilisabilité : expérience et discussion”, dans les Actes des Cinquièmes Journées Acquisition
des Connaissances, PRC-GDR IA (CNRS), Strasbourg, 1994.
Clancey W.J. (1985). “Heuristic Classification”, Artificial Intelligence, 27(3), pp. 289350, 1985.
C o l l e s s D . H . ( 1 9 6 7 ) . “An examination of certain concepts in phenetic taxonomy”, in
Systematic Zoology, 16, pp. 6-27, 1967.
Conruyt N. (1986). “Rapport d’expérimentation du système expert œillet”, mémoire de
stage de 3ème année ISARA-INRA, 1986.
C o n r u y t N . , Piaton C . (1987). “Acquisition de connaissances descriptives dans le
domaine de la pathologie végétale”, mémoire de fin d'étude ISARA-INRA-Cognitech, Lyon,
1987.
Conruyt N. (1988). “L'évaluation des logiciels d'apprentissage automatique dans INSTIL”,
mémoire de stage de DEA d'informatique, Paris VI & ENPC, Paris, 1988.
Conruyt N., Lesaffre F.M. (1988). “Noise and its treatment”, Instil Working Doc.,
COG/T/6, Cognitech, Paris, 1988.
Conruyt N . , Manago M . , Le Renard J . , Levi C . (1992). “Modélisation,
Formalisation et Analyse d'objets biologiques en vue de leur identification: application au
domaine des éponges marines”, Actes des 3èmes journées “Symboliques- numériques”,
Université Paris-IX-Dauphine, 1992.
Conruyt N . , Manago M . , Le Renard J . , Levi C . (1993). “Une méthode
d'acquisition de connaissances pour la classification et l' identification d'objets biologiques”,
Actes des treizièmes Journées sur les systèmes experts et leurs applications, EC2, Avignon,
1993.
C o n r u y t N . , Dumont S . (1993). “Manuel d’utilisation d’HyperQuest”, AcknoSoft,
1993.
Cordier M. O. (1984). “Les systèmes experts”, La Recherche, n° 151, 1984.
Corlett R. (1983). “Explaining induced decision trees”, Proc. of Expert Systems, pp. 136142, 1983.
Courtois J. (1990). “Modélisation du raisonnement en diagnostic : généricité et
formation”, Communication de la 4ème Université d'Eté CIRILLE : méthodes de raisonnement
en intelligence artificielle, Université Lyon I - INSA, Lyon, 1990.
Crémilleux R. (1991). “Induction automatique : aspects théoriques, le système ARBRE,
applications en médecine”, Thèse d'université, Université Joseph Fourier, Grenoble I, 1991.
Cuénot L. (1936). “L’espèce”, Encyclopédie scientifique, G. Doin (Eds.), Paris, 1936.
Davis R . (1984). “Diagnostic reasoning based on structure an behavior”, Artificial
Intelligence, n° 24, pp. 347-410, 1984.
Delhotal P . (1987). “Réalisation de systèmes experts d'aide au diagnostic”, ANPP,
Communication de la journée Modélisation et Protection des Cultures, INA, Paris, 1987.
D i d a y E . ( 1 9 7 1 ) . “La méthode des nuées dynamiques”, Rev. Stat. Appliquée, vol. XIX,
n°2, pp. 19-34, 1971.
Diday E . , Lemaire J . , Pouget J . , Testu F . (1982). “Eléments d'analyse des
données”, Dunod, Paris, 1982.
244
D i d a y E . ( 1 9 8 7 ) . “Introduction à l'approche symbolique en Analyse des Données”, Actes
des Journées symboliques numériques pour l'apprentissage de connaissances à partir de données,
pp. 21-56, Eds. E. Diday et Y. Kodratoff, Ceremade, Université Paris IX Dauphine, 1987.
Diday E . (1991). “Des objets de l'Analyse des Données à ceux de l'Analyse des
Connaissances”, Induction Symbolique et Numérique à partir de Données, vol 1, pp. 9-75,
Kodratoff, Y., Diday, E., Editions Cépaduès , 1991.
D i d a y E . ( 1 9 9 3 ) . “An introduction to Symbolic Data Analysis”, Rapport de recherche
INRIA, 1993.
D u b o i s D . , P r a d e H . ( 1 9 8 7 ) . “Théorie des possibilités. Application à la représentation
des connaissances en informatique”, Masson, Paris, 1987.
Ducourneau R. (1989). “Y3. Langage à objets. Version 3.22”, Sema Group, Montrouge,
1989.
D u d a R . , G a s c h n i n g J . , H a r t P . (1979). “Model Design in the PROSPECTOR
Consultant System for Mineral Exploration”, in Expert System in the Microelectronic Age, D.
Michie (Ed.), Edinburgh University Press, Edimbourg, 1979.
Estabrook G.F. (1967). “An information theory model for character analysis”, Taxon, 16,
pp. 86-96, 1967.
E u l e r L . ( 1 7 0 7 - 1 7 8 3 ) . “Opera Omnia”, 46 vol. parus, vol. 2, Leipzig-Berlin-Zürich,
(Teubner et Füssli O.), 1911-1957.
Fayyad U.M., Irani K.B. (1992). “On the handling of continuous-valued attributes in
decision tree generation”, in Machine Learning, 8, pp. 87-102, 1992.
Fayyad U.M., Irani K.B. (1993). “Multi-interval Discretization of Continuous-Valued
Attributes for Classification Learning”, in Proceedings of the Thirteenth International Joint
Conference on Artificial Intelligence (IJCAI), vol. 2, pp. 1022-1027, Chambéry, 1993.
Feigenbaum E.A. (1981). “Expert Systems in the 1980s”, Bond (Eds.), State of the Art
Report on Machine Intelligence, Maidenhead Pergamon-Infotech, 1981.
Fenelon J.P. (1981). “Qu'est-ce que l'analyse des données?”, Lefonen (Eds.), Paris, 1981.
Fisher D., Langley P. (1985). “Approaches to Conceptual Clustering”, Proc. of IJCAI,
pp. 691-697, Los Angeles, 1985.
Frege G., (1893). “Grundsetze der Arithmetik, begriffsschriftlich abgeleitet”, vol. 1, Jena,
dans “Ecrits logiques et philosophiques”, Seuil, Paris, 1971.
G a i n e s B . R . , L i n s t e r M . ( 1 9 9 0 ) . “Integrating a Knowledge Acquisition Tool, an
Expert System Shell, and a Hypermedia System”, in International Journal of Expert Systems,
pp. 105-129, vol. 3, n° 2, Jai Press Inc., 1990.
Gascuel O., Carraux G. (1992). “Statistical significance in Inductive Learning”, Proc.
of ECAI 92, pp. 435-439, Vienne, 1992.
Giarratano F., Riley G. (1989). “Expert systems, principles and programming”, PWSKENT Publishing Company, Boston, 1989.
Gomes J. (1992). “Utilisation d’algorithmes stochastiques en apprentissage”, Thèse
d’Université, Montpellier II, 1992.
Guiasu S . , Theodorescu R . (1971). “Incertitude et information”, Les Presses de
l'Université Laval, Québec, 1971.
Références
245
Guignard J. L. (1989). “Abrégé de Botanique”, 7ème éd., Masson, Paris, 1989.
H a l l R . P . ( 1 9 8 9 ) . “Computational approaches to analogical reasoning; a comparative
analysis”, Artificial Intelligence, n° 39(1), pp. 39-120, 1989.
H a t o n J . P . , N a d j e t B . , C h a r p i l l e t F . , H a t o n M . C . , L â a s r i B . , Lâasri H . ,
Marquis P . , Mondot T . , Napoli A . (1991). “Le raisonnement en intelligence
artificielle”, InterEditions, Paris, 1991.
H o o p e r K . ( 1 9 9 0 ) . “HyperCard: a key to Educational Computing”, in Learning with
Interactive Multimedia: Developing and Using Multimedia Tools in Education, S. Ambron, K.
Hooper (Eds.), Microsoft Press, Apple Computer Inc., 1990.
H u n t E . B . , M a r i n J . , S t o n e P . J . ( 1 9 6 6 ) . “Experiments in induction”, New York
Academic Press, 1966.
I j i m a I . ( 1 9 2 6 ) . “The Hexactinellidæ of the Siboga Expedition”, Siboga Exp., E.J. Brill
(Eds.), 4, 1-383, Leiden, 1926.
INSTIL (1989). “The Integration of Numeric and Symbolic Techniques In Learning”,
Project Summary, GEC-Marconi Ltd. & Université Paris-Sud & Cognitech, 1989.
Kibler D., Aha D.W. (1987). “Learning representative exemplars of concepts: an initial
case study”, Actes du quatrième International Workshop on Machine Learning, pp. 24-30,
Morgan-Kaufmann, 1987.
Kirsch P., Libero M., Rabaux E. (1993). “Open KADS : méthode & atelier pour la
modélisation des connaissances”, Génie Logiciel & Systèmes Experts, n° 31, pp. 36-40, 1993.
Kleiber G. (1990). “La sémantique du prototype”, Presses Universitaires de France, Paris,
1990.
Kodratoff Y., Ganascia J.G. (1986). “Improving the generalization step in learning”,
Machine Learning : An Artificial Intelligence Approach, Volume II, Morgan Kaufmann, San
Mateo, CA, R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds.), pp. 215-244, 1986.
Kodratoff Y . , Diday E . (1991). “Induction symbolique et numérique à partir de
données”, Cepadues (Eds.), Toulouse, 1991.
Kodratoff Y . ( 1 9 9 1 ) . “Faut-il choisir entre science des explications et science des
nombres ?”, dans Induction symbolique et numérique à partir de données, Kodratoff Y. & Diday
E., Cépaduès (Eds.), 1991.
Kolodner J.L. (1983a). “Maintaining organization in a dynamic long term memory”,
Cognitive Science, 7(4):243:280, 1983.
Kolodner J.L. (1983b). “Reconstructive Memory: a computer model”, Cognitive Science,
7(4):281-328, 1983.
Kolodner J . L . , Kolodner R . M . (1985). “Using experience in clinical problem
solving”, Technical Report GIT-ICS-85/21, School of Information and Computer Science,
Georgia Institute of Technology, 1985.
Kolodner J.L. (1987). “Extending problem solving capabilities through case-based
inference”, Actes du quatrième International Workshop on Machine Learning, pp. 167-178,
Morgan-Kaufmann, 1987.
Knuth D.E. (1968). “The art of computer programming. Fundamental algorithms”, tome
1, Addison Wesley, 1968.
Laurière J.L. (1982). “Représentation et utilisation des connaissances”, TSI, vol. 1, n° 1
et 2, 1982.
246
Lebbe J. (1991). “Représentation des concepts en biologie et en médecine”, Thèse
d’Université, Pierre et Marie Curie, Paris VI, 1991.
Lehnert W.G. (1987). “Case-based problem solving with a large knowledge base of learned
cases”, Actes de la conférence AAAI sur l'intelligence artificielle, pp. 301-306, 1987.
Lesaffre F.M., Corsi P., Lapicque J.Y., Manago M., Conruyt N., Needham
D., Blancard D. (1989). “Acquérir des connaissances à l’aide de l’apprentissage”, Actes des
neuvièmes journées sur les systèmes experts et leurs applications, EC2, Avignon 1989.
Le Renard J. (1988). “SEPV - Système global pour le diagnostic des maladies des plantes
cultivées françaises”, 1988.
Le Renard J., Conruyt N. (1994) “On the representation of observational data used for
classification and identification of natural objects”, IFCS'93, Lecture Notes in Artificial
Intelligence, Springer Verlag, 1994. (accepté, à paraître).
Lieber J. (1993). “Etude du raisonnement par cas”, Mémoire de DEA Informatique,
Université de Nancy I, CRIN-CNRS-INRIA, Nancy, 1993.
Linné C. Von (1735). “Systema naturæ”, Lugduni Batavorum, 1735.
Mahé H., Vesoul P. (1987). “Acquisition des connaissances et adaptation à l'utilisateur :
outils et méthodes”, Actes des septièmes Journées sur les systèmes experts et leurs
applications, pp. 625-646, EC2, Avignon, 1987.
M a n a g o M . ( 1 9 8 6 ) . “ Object Oriented Generalization : a tool for improving knowledge
based systems”, Proc. of the First International Meeting on Advances in Learning, Les Arcs,
1986.
M a n a g o M . , K o d r a t o f f Y . ( 1 9 8 7 ) . “ Noise and knowledge acquisition”, Proc. of the
10th International Joint Conference in Artificial Intelligence (IJCAI), Morgan-Kauffman, Los
Altos, 1987.
Manago M . (1988). “Intégration de Techniques Symboliques et Numériques en
Apprentissage”, Thèse d'université, Université Paris XI, Orsay, 1988.
Manago M., Blythe J. S. (1989). “Learning Disjunctive Concepts”, in Knowledge ReOrganization for Machine Learning, K. Morik (Ed.), Lecture Notes in Computer Science,
Springer Verlag, 1989.
M a n a g o M . , C o n r u y t N . ( 1 9 8 9 ) . “KATE : un système d’apprentissage avec objets”,
Proceedings of the Journées françaises sur l’apprentissage, IRISA, 1989.
M a n a g o M . ( 1 9 9 1 ) . “ KATE : Intégration de techniques symboliques et numériques en
apprentissage”, dans Induction symbolique et numérique à partir de données, Kodratoff Y. &
Diday E., Cépaduès (Eds.), 1991.
Manago M., Conruyt N. (1992) “Using Information Technology to Solve Real World
Problems”, Comtemporary Knowledge Engineering and Cognition, Schmalhoffer F. & Strube
G. & Wetter T. (Eds.), Lecture Notes in Computer Science subseries, pp. 22-37, Springer
Verlag, 1992.
Manago M., Conruyt N., Le Renard J. (1992). “Acquiring Descriptive Knowledge
for Classification and Identification”, in Wetter Th. & Althoff K.-D. & Boose J. & Gaines B.
& Linster M. & Schmalhofer F. (Eds.), Current Developments in Knowledge Acquisition EKAW ´92, Springer Verlag, 1992.
Manago M., Althoff K.D., Auriol E., Traphöner R., Wess S., Conruyt N.,
Maurer F. (1993). “Induction and reasoning from cases”, Proceedings of the First European
Workshop on Case Based Reasoning (EWCBR-93), M.M. Richter, S. Wess, K.D. Althoff, F.
Références
247
Maurer (Eds.), Vol II, Kaiserslautern, 1993.
Masini G . , Napoli A . , Colnet D . , Léonard D . , Tombre K . (1989). “Les
langages à objets”, InterEditions, Paris, 1989.
M a t i l e L . , T a s s y P . , G o u j e t D . ( 1 9 8 7 ) . “Introduction à la systématique zoologique”,
dans Biosystema, vol. 1, Société Française de Systématique (Eds.), 1987.
M i c h a l s k i R . S . ( 1 9 8 0 ) . “Pattern recognition as rule-guided inductive inference”, IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. PAMI-2, n° 4, pp. 349-361,
1980.
M i c h a l s k i R . S . , S t e p p R . E . , D i d a y E . ( 1 9 8 1 ) . “A recent advance in data analysis :
clustering objects into classes characterized by conjonctive concepts”, Progress in pattern
recognition, vol 1, Kunal C. Rosenfeld A. (Eds.), 1981.
Michalski R . S . , Stepp R . E . (1983). “Learning from observation : conceptual
clustering”, Machine Learning : An Artificial Intelligence Approach, vol. 1, R. S. Michalski,
J. G. Carbonell & T. M. Mitchell (Eds.), pp. 3-26, Morgan Kaufmann, San Mateo, CA, 1983.
M i c h a l s k i R . S . ( 1 9 8 3 ) . “A Theory and Methodology of Inductive Learning”, Machine
Learning : An Artificial Intelligence Approach, vol. 1, R. S. Michalski & J. G. Carbonell &
T. M. Mitchell (Eds.), pp. 83-129, Morgan Kaufmann, San Mateo, CA, 1983.
M i c h a l s k i R . S . (1986). “Understanding the nature of learning : issues and research
directions”, Machine Learning : An Artificial Intelligence Approach, vol. 2, R. S. Michalski,
J. G. Carbonell & T. M. Mitchell (Eds.), pp. 3-26, Morgan Kaufmann, San Mateo, CA, 1986.
M i l n e R . ( 1 9 8 7 ) . “Strategies for diagnosis”, IEEE Transactions on Systems, Man and
Cybernetics, n° 17, pp. 333-339, 1987.
Mingers J. (1987). “Expert Systems - Rule Induction with Statistical Data”, in Journal of
the Operational Research Society, vol. 38, n° 1, pp. 39-47, 1987.
M i n g e r s J . ( 1 9 8 9 ) . “An empirical comparison of selection measures for decision tree
induction”, in Machine Learning 3, 4, pp. 319-342, 1989.
Mingers J. (1989). “An empirical comparison of pruning methods for decision tree
induction”, in Machine Learning 4, 2, pp. 227-243, 1989.
M i n s k y M . ( 1 9 7 5 ) . “A Framework for Representing Knowledge”, in The psychology of
Computer Vision, pp. 211-281, Winston P.H. (Eds.), McGraw-Hill, New York, 1975.
Napoli A . (1992). “Représentations à objets et raisonnement par classification en
intelligence artificielle”, Thèse d’Etat, Université de Nancy I, 1992.
N i l s s o n N . ( 1 9 8 0 ) . “Principles of Artificial Intelligence”, Tioga Publishing Co., 1980.
Niquil Y . (1993). “Acquisition d’exemples en discrimination”, Thèse d'université,
Université Paris IX, Dauphine, 1993.
Pankhurst R.J. (1991). “Practical taxonomic computing”, Cambridge University Press,
Cambridge, 1991.
P e i r c e C . S . ( 1 9 6 5 ) . “Elements of Logic”, in Collected Papers of Charles Sanders Peirce
(1839 - 1914), C. H. Hartshone & P. Weiss (Eds.), The Belknap Press, Harvard University
Press, Cambridge, MA, 1965.
Perinet-Marquet M . (1993). “Description et identification de structures biologiques
itératives”, mémoire de stage de DES de Sciences Naturelles, Université Pierre et Marie Curie
Paris VI, Paris, 1993.
248
Pitrat J. (1987). “La gestion des connaissances est encore trop procédurale”, interview rev.
“01 informatique”, n°956, pp. 38-43, 1987.
P ó l y a G . (1958). “Les mathématiques et le raisonnement plausible”, Gauthier-Villars
(Eds.), Paris, 1958.
Pólya G. (1967). “La découverte des mathématiques”, vol. 1 & 2, Dunod, Paris, 1967.
Popper K.R. (1973). “La logique de la découverte scientifique”, Payot (Eds.), Paris, 1973.
Popper K.R. (1978). “La connaissance objective”, Complexe (Eds.), Bruxelles, 1978.
Q u i n l a n J . R . ( 1 9 7 9 ) . “Discovering rules from large collections of examples : a case
study”, in Expert Systems in the micro electronic age, D. Michie (Eds.), Edinburgh University
Press, Edinburgh, 1979.
Quinlan J.R. (1983). “Learning efficient classification procedures and their application to
chess end games”, in Machine Learning : An Artificial Intelligence Approach, vol. 1,
Michalski R. S., Carbonell J. G., Mitchell T. M. (Eds.), Morgan Kaufmann, Los Altos, 1983.
Rada R., Barlow J. (1989). “Expert systems and hypertext”, The Knowledge Engineering
Review, pp. 285-301, 1989.
Rechenmann F. (1985). “Shirka : mécanismes d’inférence sur une base de connaissances
centrée-objet”, Actes des Journées Bases de Données Avancées, Port-Camargue, 1987.
R e y n a u d C . , T o r t F . ( 1 9 9 4 ) . “Connaissances du domaine d'un SBC et ontologies :
discussion”, dans les Actes des Cinquièmes Journées Acquisition des Connaissances, PRCGDR IA (CNRS), Strasbourg, 1994.
Richard J.F. (1983). “Logique de fonctionnement et logique d'utilisation”, Rapport de
recherche n° 202, INRIA, 1983.
R o b e r t s R . B . , G o l d s t e i n I . ( 1 9 7 7 ) . “The FRL Primer”, MIT Artificial Intelligence
Laboratory, Memo 408, 1977.
R o s c h E . , M e r v i s C . , G r a y W . , J o h n s o n D . , B o y e s - B r e a m P . ( 1 9 7 6 ) . “Basic
objects in natural categories”, Cognitive Psychology, vol. 8, pp. 382-439, 1976.
S c h a n k R . C . , A b e l s o n R . P . (1977). “Scripts, plans, goals, and understanding”,
Lawrence Erlbaum Associates, New York, 1977.
Schank R . C . (1982). “Dynamic Memory: a Theory of Reminding and Learning in
Computers and People”, Cambridge University Press, Cambridge, 1982.
S c h u l z e F . E . ( 1 9 0 2 ) . “An account of the Indian Triaxonia”, traduction anglaise de R.V.
Lendenfeld, Calcutta, 1902.
S i m p s o n R . L . ( 1 9 8 5 ) . “A computer model of case-based reasoning in problem solving: an
investigation in the domain of dispute mediation”, PhD Thesis, School of Information and
Computer Science, Georgia Institute of Technology, 1985.
Shannon C . E . (1949). “The mathematical theory of communication”, University of
Illinois press, Urbana, 1949.
Shortliffe E.H. (1976). “Computer-based medical consultations : MYCIN”, New York,
Elsevier, 1976.
Smeci (1991). “Manuel de référence, version 1.65”, ILOG, 1991.
Smith E., Medin D. (1981). “Categories and Concepts”, Harvard University Press, 1981.
Références
249
S n e a t h E . , S o k a l E . ( 1 9 7 3 ) . “Numerical taxonomy”, W. H. Freeman, San Francisco,
1973.
Sowa J.F. (1984). “Conceptual Structures, Information Processing in Mind and Machine”,
Addison Wesley, Reading, MA, 1984.
S t a n f i l l C . , W a l t z D . L . ( 1 9 8 6 ) . “Toward memory-based reasoning”, in Journal of the
Association for Computing Machinery, 29(12):1213-1228, 1986.
Stefik M . J . , Bobrow D . G . (1986). “Object-Oriented Programming: Themes and
Variations”, in the AI Magazine, 6(4):40-62, 1986.
Stepp, R.E., Michalski R.S. (1986) “Conceptual Clustering : Inventing Goal-Oriented
Classifications of Structured Objects”, in Machine Learning : An Artificial Intelligence
Approach, Volume II, Morgan Kaufmann, San Mateo, CA, R. S. Michalski, J. G. Carbonell
& T. M. Mitchell (Eds.), pp. 471-498, 1986.
S u t c l i f f e J . P . ( 1 9 8 6 ) . “Differential ordering of objects and attributes”, Psychometrika,
vol. 51, n° 2, pp. 209-240 , 1986.
Sutcliffe J.P. (1993). “Concept, class, and category in the tradition of Aristotle". In: Van
Mechelen, I., Hampton, J., Michalsky, R.S., Theuns, P. (Eds.), Chap 3, Categories and
Concepts : Theoretical Views and Inductive Data Analysis. Academic Press, London, 1993.
Tomassone R. (1991). “La Statistique : un mode de pensée”, Gazette des mathématiciens,
n° 48, Société Mathématique de France, 1991.
U t g o f f P . E . ( 1 9 8 9 ) . “Incremental induction of decision trees”, Machine Learning 4, 2,
161-186, 1989.
Vignes R . (1991). “Caractérisation automatique de groupes biologiques”, Thèse
d'université, Université Paris VI, 1991.
V o g e l C . ( 1 9 8 8 ) . “Génie cognitif”, Masson, Paris, 1988.
W i e l e n g a B . , V a n D e V e l d e W . , S c h r e i b e r A . , B r e u k e r J . , A k k e r m a n s H.
(1992a). “The CommonKADS Framework for Knowledge Modelling”, Actes des journées
Knowledge Acquisition for Knowledge Based Systems Workshop, Banff, 1992.
Wielenga B., Schreiber A., Breuker J. (1992b). , “KADS : a modelling approach to
knowledge engineering”, in Knowledge Acquisition, vol. 4, 1992.
Winston P. (1977). “Artificial intelligence”, Addison Wesley, Reading, 1977.
Wittgenstein L. (1953). “Philosophical investigations”, Blackwell, pp. 31-34, 1953.
Yaglom A . M . , Yaglom I . M . ( 1 9 5 7 ) . “Probabilité et information, théorie et
application”, Dunod, Paris, 2ème édition, 1969.
Zadeh L. A. (1965). “Fuzzy Sets”, Information and Control, 8, pp. 338-353, 1965.
250
LISTE DES FIGURES
Fig. 1.1
Fig. 1.2
Fig. 1.3
Fig. 1.4
Fig. 1.5
Fig. 1.6
Fig. 1.7
Fig. 1.8
Notre méthodologie de collecte, d’observation et de description des exemples
Tableau des exemples formés d'objets structurés pour les maladies des tomates
Un arbre de décision pour la reconnaissance de maladies de la tomate
Une classification des maladies de la tomate
Représentation de la hiérarchie des symptômes dans TOM
Représentation de la hiérarchie d’un symptôme en utilisant l’héritage multiple
Disposition du Genre Hyalonema dans la hiérarchie linéenne
Chronologie de notre approche de l'acquisition des connaissances
26
34
34
39
39
40
42
46
Fig. 2.1
Fig. 2.2
Fig. 2.3
Fig. 2.4
La robustesse dans la démarche statistique [Tomassone, 1991]
Classification des différents types de bruits dans INSTIL
Comparaison de notre travail avec l'approche statistique
Synoptique de notre méthode d’acquisition des connaissances
62
63
65
69
Fig. 3.1
Fig. 3.2
Fig. 3.3
Fig. 3.4
Fig. 3.5
Fig. 3.6
Fig. 3.7
Fig. 3.8
Fig. 3.9
Rapport entre l'extension et l'intension
Mathématiciens et Naturalistes, deux points de vue différents des concepts
Le triangle des fonctions entre individus et leurs descriptions
Schéma du formalisme de modélisation des données
Les trois intensions de la classe
Schéma de comparaison des termes employés en systématique
Notre conception des différents termes employés dans cette thèse
Les modes principaux de raisonnement en apprentissage automatique
Relations entre les concepts utilisés
76
77
87
88
88
90
92
96
99
Fig. 4.1
Fig. 4.2
Fig. 4.3
Fig. 4.4
Fig. 4.5
Fig. 4.6
Fig. 4.7
Fig. 4.8
Fig. 4.9
Exemple de l’attribut “longitude” de type “texte”
Exemple d’attribut de type “booléen”
Exemple d’attribut de type “numérique”
Exemple d’attribut de type “nominal”
Exemple d’attribut de type “classifié”
Exemple d’attribut non polymorphe
Exemple de spécialisations d’un objet
Exemple de hiérarchie d'objets non instanciés
Exemple de hiérarchie d'objets instanciés
118
118
119
119
120
122
123
125
126
Fig. 5.1
Fig. 5.2
Fig. 5.3
Fig. 5.4
Illustration d’une assertion composite a h
Schéma de la structure du modèle descriptif
Illustration d’une horde composite hi
Schéma de formalisation des données
139
140
143
151
Fig. 6.1
Fig. 6.2
Fig. 6.3
Fig. 6.4
Fig. 6.5
Vue des deux plans orthogonaux de description des objets en pathologie végétale
Vue globale du modèle descriptif des Hyalonema
Vue partielle du modèle descriptif des Hyalonema
Vue globale des spécialisations de l’objet “amphidisques”
Processus de description d’un spécimen dans le questionnaire
157
160
161
163
164
252
Fig. 6.6 Fenêtre d’édition de l’objet “corps” de Hyanonema
Fig. 6.7 Fenêtre d’édition de l’attribut “forme” du corps de Hyalonema
Fig. 6.8 Les champs d’édition d’un attribut numérique
Fig. 6.9 Fenêtre d’édition des valeurs classifiées de la “forme” du corps de Hyalonema
Fig. 6.10 La pile de génération du questionnaire
Fig. 6.11 La première carte de la pile du Questionnaire Hyalonema
Fig. 6.12 Cartes des caractéristiques et des composants de l'objet “corps” de Hyalonema
Fig. 6.13 Représentation des différents états d'un objet dans le questionnaire
Fig. 6.14 Correspondance entre un attribut qualitatif et la carte <couleur(corps)>
Fig. 6.15 Correspondance entre un attribut numérique et la carte <longueur(tignules)>
Fig. 6.16 Correspondance entre un attribut commentaire et la carte <localité(contexte)>
Fig. 6.17 Les sous-valeurs de la carte <renflée(forme)>
Fig. 6.18 Représentation du lien de spécialisation de l'objet “symptôme sur folioles”
Fig. 6.19 Vue de la carte <spécialisations(symptome-sur-foliole)>
Fig. 6.20 Représentation de la carte de l'objet “taches ou plages ou nécroses”
Fig. 6.21 Vue de la carte <spécialisations(taches-ou-plages-ou-necroses)>
Fig. 6.22 Vue de la carte des instances multiples de l'objet “mycroxyhexactines”
Fig. 6.23 Description de la première sorte d'objet “mycroxyhexactines”
Fig. 6.24 Dépendance entre une valeur d'attribut et d'autres attributs
Fig. 6.25 Dépendance entre une valeur d'attribut et d'autres valeurs d'attributs
Fig. 6.26 Association de dessins pour illustrer des valeurs d'attributs
Fig. 6.27 Les menus "Cas" et "Personnaliser"
Fig. 6.28 Le processus de description locale d'un objet
Fig. 6.29 La description du cas en LCRC à enregistrer
Fig. 6.30 Le dialogue permettant de remplacer un ancien cas de la base de cas
Fig. 6.31 La description du cas à consulter
Fig. 6.32 La consultation du système expert à partir du questionnaire
Fig. 6.33 Déplacer une image dans le questionnaire
Fig. 6.34 Associer des boutons multi-formes aux images dans le questionnaire
Fig. 6.35 Associer un bouton rectangulaire ou polygonal à une partie d’image
Fig. 6.36 Changer le titre d'une question dans le questionnaire
Fig. 6.37 Le bouton “Voir une image” de la pile du questionnaire
Fig. 6.38 La pile HyperScan
Fig. 6.39 Illustration par l'utilisateur d'un objet observé : les amphidisques(2) du cas n° 3
Fig. 6.40 Le bouton “Naviguer” du questionnaire
Fig. 6.41 Le bouton “Coursier” du questionnaire
Fig. 6.42 Le dialogue permettant de sortir du questionnaire
167
169
170
172
173
176
177
179
180
181
182
183
184
185
185
186
187
187
188
189
190
191
193
195
196
196
197
199
199
200
201
202
203
203
204
204
204
Fig. 7.1
Fig. 7.2
Fig. 7.3
Fig. 7.4
Fig. 7.5
Fig. 7.6
Fig. 7.7
Fig. 7.8
210
219
219
222
223
224
226
226
Schéma d’un nœud de l’arbre T
Exemples sous la forme d'un tableau de données
Un arbre de classification (ou de décision)
Consultation de l'arbre de décision de la figure 7.3
L'analogie selon Bourrelly et Chouraqui (1985)
L’explication sur anomalies connues
Visualisation des critères ordonnés à la racine de l'arbre de décision (<top>)
Une procédure de raisonnement par cas
Fig. 8.1 Conjecturer et Tester
233
I
L'INDUCTION EN MATHÉMATIQUES*
1. Expérience et opinion.
L'expérience modifie les opinions des hommes. Nous apprenons par expérience
ou plutôt nous devrions apprendre par expérience. Tirer le meilleur parti possible
de l'expérience est l'une des grandes tâches humaines et travailler à cette tâche
est la vocation particulière des savants.
Un savant digne de ce nom cherche à parvenir à l'opinion la plus correcte
possible à partir d'une expérience donnée et à acquérir l'expérience la meilleure
pour arriver à l'opinion la plus correcte sur une question donnée. Le processus
de la pensée du savant dans l'utilisation de l'expérience est généralement appelé
induction. On peut trouver des exemples particulièrement clairs du processus
inductif dans la recherche mathématique. Nous étudierons un exemple simple
dans la section qui suit.
2. Points de contact suggestifs.
L'induction commence souvent avec l'observation. Un naturaliste peut observer
la vie des oiseaux, un cristallographe les formes des cristaux. Le mathématicien,
qui s'intéresse à la théorie des nombres, observe les propriétés des entiers 1, 2,
3, 4, 5, etc..
Si vous désirez observer la vie des oiseaux (avec quelque chance d'obtenir des
résultats intéressants), vous devez avoir une certaine habitude de ces derniers,
vous devez vous intéresser à eux, peut-être même devez-vous les aimer. De la
même manière, si vous désirez observer les nombres, vous devez vous y
intéresser et être quelque peu familiarisé avec eux. Vous devez distinguer les
nombres pairs des nombres impairs, vous devez connaître les carrés parfaits 1,
4, 9, 16, 25, etc. et les nombres premiers 2, 3, 5, 7, 11, 13, 17, 19, 23, 29,
etc..
(Il est préférable de mettre 1 de côté, en le considérant comme l' «unité», et de ne
pas le classer avec les nombres premiers.) Même avec un bagage aussi modeste
que celui-ci vous pouvez observer des choses intéressantes.
Supposons que par hasard vous rencontriez les relations
Ce texte est le 1 er chapitre du livre de G. Pólya "Les mathématiques et le raisonnement
plausible", traduit de l’anglais par R. Vallée (CNRS). Il met en évidence le parallélisme entre la
démarche scientifique d'un naturaliste et d'un mathématicien.
*
256
Annexe 1
3 + 7 = 10, 3 + 17 = 20, 13 + 17 = 30
et que vous remarquiez une certaine ressemblance entre elles. Vous êtes frappé
par le fait que les nombres 3, 7, 13 et 17 sont des nombres premiers impairs. La
somme de deux nombres premiers impairs est nécessairement un nombre pair ;
en fait, 10, 20 et 30 sont pairs. Mais que penser des autres nombres pairs. Se
comportent-ils de la même manière ? Le premier nombre pair qui soit somme de
deux nombres premiers impairs est, naturellement,
6 = 3 + 3.
Après le nombre 6, nous voyons que
8=3+5
10 = 3 + 7 = 5 + 5
12 = 5 + 7
14 = 3 + 11 = 7 + 7
16 = 3 + 13 = 5 + 11.
Cela continuera-t-il ainsi indéfiniment ? Quoi qu'il en soit les cas particuliers
observés suggèrent une proposition de caractère général : Tout nombre entier
supérieur à 4 est la somme de deux nombres premiers impairs. L'examen des
cas d'exception, 2 et 4, correspondant à des nombres qui ne peuvent être
décomposés en une somme de deux nombres premiers impairs, conduit à
préférer la proposition plus complexe suivante : Tout nombre entier qui n'est ni
un nombre premier ni le carré d'un nombre premier, est la somme de deux
nombres premiers impairs.
Nous avons ainsi fait une hypothèse (au sens des physiciens). Nous y sommes
parvenus par induction. C'est-à-dire qu'elle nous a été suggérée par
l'observation, qu'elle nous a été indiquée par des exemples particuliers.
Ces indices sont assez peu convaincants ; les bases sur lesquelles fonder notre
hypothèse sont encore peu solides. Nous pouvons, néanmoins, trouver quelque
consolation dans le fait que le mathématicien Goldbach, qui l'émit il y a un peu
plus de deux cents ans, ne possédait pas de justification meilleure.
L'hypothèse de Goldbach est-elle vraie ? Personne ne peut aujourd'hui répondre
à cette question. En dépit des efforts de quelques grands mathématiciens,
l'hypothèse de Goldbach se trouve être, comme au temps d'Euler, l'une de ces
«nombreuses propriétés des nombres qui nous sont familières mais que nous ne
sommes pas encore capables de prouver» ou de réfuter.
Revenons maintenant en arrière et essayons de discerner quelles étapes, dans le
raisonnement précédent, peuvent être considérées comme typiques de la
démarche inductive.
257
L'induction en mathématiques
Tout d'abord nous avons noté une certaine ressemblance. Nous avons
remarqué que 3, 7, 13 et 17 sont premiers, 10, 20 et 30 pairs et que les trois
équations 3 + 7 = 10, 3 + 17 = 20, 13 + 17 = 30 sont analogues entre elles.
Puis il y eut une étape de généralisation. Des cas particuliers 3, 7,13 et 17 nous
sommes passé à tous les nombres premiers impairs, de 10, 20 et 30, à tous les
nombres pairs, puis de là à une relation peut-être générale
nombre pair = nombre premier + nombre premier.
Nous sommes arrivés ainsi à une proposition générale clairement formulée, qui
est néanmoins seulement une hypothèse, seulement un essai. Cela signifie que la
proposition n'est nullement prouvée ; elle ne peut prétendre être vraie, elle
représente seulement une tentative pour parvenir à la vérité.
Cette hypothèse présente, néanmoins, quelques points de contact suggestifs
avec l'expérience, avec «les faits», avec la «réalité». Elle est vraie pour les
nombres pairs particuliers 10, 20, 30, et aussi pour 6, 8, 12, 14, 16.
Les remarques précédentes nous ont montré une première étape de la démarche
inductive.
3. Points de contact apportant une confirmation.
On ne doit pas accorder une confiance trop grande à une hypothèse non prouvée,
même si un homme de grande autorité l'a proposée, même si on l'a proposée
soi-même.
On doit essayer de la prouver ou de la réfuter ; on doit l'éprouver.
Nous faisons subir une épreuve à l'hypothèse de Goldbach si nous examinons
quelque nouveau nombre pair et décidons s'il est ou s'il n'est pas la somme de
deux nombres premiers impairs. Examinons, par exemple, le nombre 60.
Réalisons une «quasi-expérience», comme dit Euler.
Le nombre 60 est pair, mais est-il la somme de deux nombres premiers ?
Est-il exact que
60 = 3 + nombre premier ?
Non, 57 n'est pas premier. Est-ce que
60 = 5 + nombre premier ?
La réponse est encore «non»: 55 n'est pas premier. Si cela continue ainsi
l'hypothèse devra être rejetée. Néanmoins l'essai suivant donne
60 = 7 + 53
et 53 est un nombre premier. L'hypothèse a été vérifiée une nouvelle fois.
258
Annexe 1
La circonstance opposée aurait réglé une fois pour toutes le sort de l'hypothèse
de Goldbach. Si en essayant tous les nombres premiers inférieurs à un nombre
pair donné, tel que 60, on ne parvient jamais à une décomposition en une somme
de deux nombres premiers, on est conduit à rejeter I'hypothèse de façon
irrévocable. Ayant vérifié l'hypothèse dans le cas du nombre pair 60, on ne peut
parvenir à une conclusion aussi nette. On ne prouve certainement pas le théorème
par une vérification unique. Il est néanmoins naturel d'interpréter une telle
vérification comme un signe favorable à l'hypothèse, comme un signe
susceptible d'augmenter son crédit, bien que l'importance à attacher à ce signe
favorable dépende du jugement de chacun.
Revenons au nombre 60. Après avoir essayé les nombres entiers 3, 5 et 7, nous
pouvons essayer les autres nombres premiers inférieurs à 30. (Il est clair qu'il
n'est pas nécessaire d'aller au-delà de 30, égal à 60/2, puisque l'un des deux
nombres premiers, dont la somme doit être 60, est obligatoirement inférieur à
30.) Nous obtenons ainsi toutes les décompositions possibles de 60 en une
somme de deux nombres premiers:
60 = 7 + 53 = 13 + 47 = 17 + 43 = 19 + 41 = 23 + 37 = 29 + 31
Nous pouvons continuer systématiquement et examiner les nombres pairs les
uns après les autres, comme nous l'avons fait pour le seul nombre 60.
Nous pouvons construire un tableau des résultats :
6=3+3
8=3+5
10 = 3 + 7 = 5 + 5
12 = 5 + 7
14 = 3 + 11 = 7 + 7
16 = 3 + 13 = 5 + 11
18 = 5 + 13 = 7 + 11
20 = 3 + 17 = 7 + 13
22 = 3 + 19 = 5 + 17 = 11 + 11
24 = 5 + 19 = 7 + 17 = 11 + 13
26 = 3 + 23 = 7 + 19 = 13 + 13
28 = 5 + 23 = 11 + 17
30 = 7 + 23 = 11 + 19 = 13 + 17.
L'hypothèse est vérifiée dans tous les cas examinés ici. Toute vérification qui
permet d'enrichir le tableau renforce l'hypothèse, la rend plus vraisemblable,
plus plausible.
Ce n'est certes pas avec ces vérifications-là que nous pouvons prouver
l'hypothèse. Nous devons examiner les observations que nous avons réunies,
nous devons les comparer et les associer, nous devons chercher les indices qui
peuvent s'y trouver cachés. Dans le cas qui nous occupe il est très difficile de
trouver un indice important dans le tableau, mais en l'examinant, nous pouvons
L'induction en mathématiques
259
parvenir à comprendre plus clairement la signification de l'hypothèse. Ce tableau
montre avec quelle fréquence les nombres pairs, qui s'y trouvent inscrits,
peuvent être représentés par une somme de deux nombres premiers (6 une fois
seulement, 30 trois fois). Le nombre de ces décompositions du nombre pair 2n
semble «croître irrégulièrement» avec n.
L'hypothèse de Goldbach exprime l'espoir de ne pas voir le nombre de ces
décompositions s'annuler, si loin que nous étendions le tableau.
Les cas particuliers que nous avons examinés sont de deux espèces : ceux qui
ont précédé la formulation de l'hypothèse et ceux qui sont venus après.
Les premiers ont suggéré l'hypothèse, les seconds l'ont confirmée. Ces deux
sortes de cas fournissent chacun un contact entre l'hypothèse et «les faits».
Le tableau ne fait aucune distinction entre les points de contact «suggestifs» et
ceux qui sont «confirmatifs».
Revenons maintenant au raisonnement précédent et essayons d'y déceler des
traits caractéristiques de la démarche inductive.
Ayant conçu une hypothèse, nous avons essayé de découvrir si elle était vraie ou
fausse. Notre hypothèse était une proposition de caractère général suggérée par
certains cas particuliers où nous avions remarqué qu'elle était vraie. Nous avons
par la suite examiné quelques exemples supplémentaires.
L'hypothèse s'étant trouvée être vraie dans tous les cas examinés, notre
confiance s'en trouve augmentée.
Nous n'avons, il me semble, rien fait que de raisonnable. En agissant ainsi nous
faisons confiance au principe suivant : Le crédit d'une proposition
hypothétique de caractère général augmente lorsque celle-ci a été vérifiée
sur un nouveau cas particulier.
Est-ce là le principe sous-jacent à la démarche inductive ?
4. L'attitude inductive.
Au cours de notre vie nous nous attachons souvent à des illusions. C'est-à-dire
que nous n'osons pas mettre à l'épreuve certaines de nos opinions qui pourraient
facilement être infirmées par l'expérience, parce que nous craignons de rompre
notre équilibre affectif. Il peut se trouver des circonstances où il ne soit pas
déraisonnable de s'attacher à des illusions, mais quand il s'agit de science une
attitude tout à fait différente est nécessaire, c'est l'attitude inductive. Cette
attitude nous conduit à contrôler nos opinions par l'expérience de façon aussi
efficace que possible.
Elle demande un certain goût pour les faits. Elle demande de savoir s'élever des
observations aux généralisations et de savoir redescendre des généralisations les
plus hardies aux observations les plus concrètes. Elle demande de dire «peut-
260
Annexe 1
être» avec mille nuances différentes. Elle demande beaucoup d'autres choses et
tout particulièrement les trois suivantes :
1 - Etre prêt à modifier une opinion personnelle.
2 - Modifier une opinion quand il y a une raison impérative de le faire.
3 - Ne pas modifier une opinion à la légère, c'est-à-dire sans avoir quelque
bonne raison pour cela.
Ces remarques semblent banales. Et pourtant des qualités assez rares sont
nécessaires pour vivre conformément aux préceptes correspondants.
Le premier précepte exige du «courage intellectuel». Il faut du courage pour
modifier ses opinions. Galilée, s'élevant contre les préjugés de ses
contemporains et l'autorité d'Aristote, offre un grand exemple de courage
intellectuel.
Le second exige de l' «honnêteté intellectuelle». Conserver une hypothèse qui a
été clairement infirmée par l'expérience, simplement parce que c'est une
hypothèse personnelle, ne serait pas honnête.
Le troisième exige une «sage prudence». Changer d'opinion sans motif sérieux,
par exemple pour se conformer à une mode, serait peu raisonnable. Néanmoins
nous n'avons ni le temps ni la force d'examiner sérieusement toutes nos
opinions. Aussi est-il sage de consacrer notre tâche quotidienne aux seules
opinions que nous pouvons espérer améliorer, de nous interroger et de faire
porter nos doutes sur elles. «Ne croyez pas n'importe quoi, mais doutez
seulement de ce qui vaut la peine d'être mis en doute».
Le courage intellectuel, l'honnêteté intellectuelle et une sage prudence sont les
qualités morales du savant.
II
L'EXPERT, SON “RAISONNEMENT”*
L'échantillon arrivant dans les mains de l'expert fait d'abord l'objet d'un examen visuel complété
par la lecture d'une fiche de renseignements ou bien des questions posées à la personne qui a
amené l'échantillon (technicien, agriculteur ou expéditeur).
L'expert effectue une observation visuelle de tous les organes en analysant très rapidement les
symptômes sur chacun d'eux. Avec l'habitude, l'expert arrive à trier les symptômes et à laisser
de côté les manifestations secondaires. Il ne regarde que ce qui est important pour l'identification
et laisse de côté les indices anormaux.
“Nous, on a cette déformation du fait que l'on manipule une énorme quantité d'échantillons, on
a tendance à ne retenir que le symptôme typique (au détriment des autres), qui n'apparaît pas
toujours sur l'échantillon qu'on a en main.” (cas de la tomate, D. Blancard, 1987).
En cela, il possède une démarche plus globale et déjà orientée qu'une approche structurée et
algorithmique. Il va à l'essentiel et recherche le fait saillant en ne retenant que les symptômes
très caractéristiques. Il aboutit très tôt à quelques hypothèses qu'il va tenter de confirmer à l'aide
d'éléments complémentaires relatifs aux critères asymptomatologiques.
Ainsi, trois cas sont possibles:
1) L'expert pense à une affection non parasitaire :
-
phytotoxicité,
accident climatique (écart trop important de température entre le jour et la nuit),
erreur culturale (excès d'eau par irrigation),
anomalie variétale ou génétique.
Il formule cette hypothèse et il essaie de l'approfondir. Puis il cherche à la confirmer avec des
renseignements sur la conduite culturale au cours de discussions avec l'agriculteur ou le
technicien.
2) Le parasite est décelé après constatation de symptômes spécifiques ou bien observation
directe de celui-ci : il y a ici reconnaissance instantanée du faciès d'une maladie, liée à
l'identification du trait pertinent, sans besoin de pratiquer un isolement.
*
Ce texte est une analyse concrète de la pratique de diagnostic des experts en pathologie
végétale de l'INRA ; il est extrait de trois rapports lors de campagnes de validation de SEPV sur
le terrain.
262
Annexe 2
La faculté de reconnaître un parasite est liée à un savoir acquis au cours d'une longue période
d'examen des échantillons en laboratoire. L'expert manipule des plants au niveau de l'individu et
à une échelle réellement plus restreinte et variée (loupe binoculaire, microscope) que les
techniciens et les agriculteurs qui voient la culture dans sa globalité.
La pratique routinière des isolements développe les capacités de mémorisation visuelle des
échantillons pour effectuer des comparaisons entre les maladies: il s'agit en effet de se rappeler
les symptômes sur la plante trois à cinq jours après que l'isolement a été éffectué pour qu'une
fois le diagnostic acquis, il puisse donner une réponse à l'agriculteur et le conseiller. Il arrive
que les experts établissent un diagnostic visuel en se rappelant un cas identique posé il y a plus
de trois ans !
A force de manipulation, I'expérience se transforme en mécanismes souvent intuitifs et
inconscients :
“C'est compliqué à expliquer... en fait, nous, on a l'habitude de ces trucs-là, presque
instinctivement on verra des trucs comme ça, boutures dures, mal foutues, dessèchement des
pointes, épaississement de la base, on posera vite la question : c'était déjà présent au moment
de la plantation ? ” (cas de l'oeillet, S. Mercier, 1986).
3) L'expert a une “présomption”, il soupçonne un parasite :
L'investigation demande à être approfondie. On a donc recours à des techniques de laboratoire de
haute précision, c'est-à-dire :
- champignon :
isolement sur des milieux de culture,
essai de contamination : reproduction des symptômes sur des plantes
sensibles.
- bactérie :
isolement sur des milieux de culture,
envoi à un service plus spécialisé de l'INRA.
- virus :
examen au microscope électronique,
inoculation à des plantes hôtes,
diagnostic sérologique (test Elisa, immunodiffusion, SDS).
- insecte :
détermination directe,
envoi à la station de zoologie.
Après examination en laboratoire, on aboutit soit à un résultat négatif, la cause des symptômes
reste indéterminée, soit à un résultat positif. L'hypothèse initiale devient alors une certitude et
l'expert peut identifier l’infection puis conseiller l'agriculteur.
IIIRÉPARTITION DES DESCRIPTIONS DE
HYALONEMA PAR SOUS-GENRES
*
45
43
42
41
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
118
117
113
107
99
88
82
81
80
79
78
77
76
75
61
60
58
57
55
54
52
50
49
47
41
38
37
36
35
34
33
32
31
30
29
28
27
25
24
16
15
14
3
2
Cyl.
121
101
100
87
86
74
73
72
65
48
45
42
20
10
9
4
Cor.
124
123
122
108
106
97
91
90
89
69
68
67
66
6
5
Oon.
Cyl. = Cyliconema
Cor. = Corynonema
Oon. = Oonema
Cos. = Coscinonema
*
125
116
115
114
111
110
105
98
83
59
44
21
1
Cos.
120
119
104
71
70
56
51
43
26
8
7
Lep.
109
102
96
95
94
93
53
13
12
11
Pri.
85
84
19
18
17
Pte.
Lep. = Leptonema
Pri. = Prionema
Pte. = Pteronema
Par. = Paradisconema
63
62
23
22
Par.
112
46
40
39
Euh.
64
Tha.
92
Phi.
103
Onc.
Euh. = Euhyalonema
Tha. = Thamnonema
Phi. = Phialonema
Onc. = Onconema
Chaque numéro correspond à une description répertoriée dans la base de cas.
IV
ARCHITECTURE D'HYPERQUEST
IV-1 Les piles d'HyperQuest
HyperQuest est composée de trois modules avec un certain nombre de piles qui
se répartissent de la manière suivante (figure 1) :
HYPERQUEST
KATE
Source
Modèle
Editeur de Modèle
Questionnaire
Générateur de Questionnaire
Kate
Images
+
Dépendances Spécialisations
Casuel
CaseWork
Modèle
Objets
Images
Questionnaire
Application
Fig. 1 : Architecture d'HyperQuest
Le module d'HyperQuest intitulé Modèle correspond à la phase 1 d'acquisition
du modèle descriptif dans le schéma de notre méthode (cf. § 2.4, figure 2.4) et le
module Questionnaire se rapporte à la phase 2 de construction du questionnaire.
Ces deux modules appartiennent au dossier Source d'HyperQuest (figure 2)
et servent à générer le troisième module qui constitue le dossier Application
(figure 4). La partie à droite du schéma représente le traitement des
connaissances observées en aval de la méthode (KATE et CaseWork).
266
Annexe 4
Les flèches épaisses montrent les échanges de données (objets, attributs et
valeurs) entre les modules. Pour communiquer avec KATE et CaseWork qui ne
sont pas des programmes hypertextes, ces données sont représentées au format
texte LCRC ou CASUEL dans des fichiers (ASCII).
Les flèches plus fines indiquent la manière dont dépendent les piles les unes des
autres dans le procédé de construction graphique du modèle descriptif et du
questionnaire : ces piles permettent de représenter les objets au format
Hypertexte (pile, bouton, carte, etc.).
Les flèches fines en pointillé illustrent l'instanciation (la copie) des piles de la
source (piles du dossier Source qui servent à générer d'autres piles) en piles
appartenant à l'application du domaine lors de la création du modèle et du
questionnaire.
IV-1.1 Le dossier Source
La figure 2 ci-dessous montre la composition du dossier Source d'HyperQuest :
Fig. 2 : Le dossier des sources d'HyperQuest
L'éditeur (générateur) de modèle est la pile principale où se définissent les
objets du domaine et les relations qu'ils entretiennent entre eux. Deux types de
relations sont prédéfinis dans HyperQuest, symbolisés par deux piles
“Dépendances” et “Spécialisations”.
La pile des dépendances permet de construire une hiérarchie de partition (ou de
composition) entre les objets (cf. § 6.3.3) alors que la pile des spécialisations
permet de préciser un objet particulier sous la forme d'un arbre de recouvrement
entre cet objet et ses “sous objets” (cf. § 6.3.4).
Dans la plupart des applications, la pile des dépendances est la première à
instancier car elle s'applique au domaine lui-même qu'il faut décomposer en
objets pour pouvoir l'analyser. Par exemple, nous conseillons d'indiquer comme
premier objet le nom du domaine à étudier qui forme la racine du modèle
Architecture d’HyperQuest
267
arborescent et de donner comme objets qui en dépendent les trois points de vues
suivants : identification, description et contexte. C'est donc la pile des
dépendances qui est instanciée la première dans la construction d'un tel modèle.
La copie prend alors le nom du modèle du domaine (par exemple “Modèle
Hyalonema”) et permet de construire une hiérarchie de partition entre objets. Par
contre, il se peut que la pile des spécialisations soit instanciée plusieurs fois pour
un modèle donné, cela dépend du nombre d'objets à préciser. Chaque pile de
spécialisations instanciée prend alors le nom de l'objet spécialisable.
Le générateur de questionnaire est la pile qui permet de construire
automatiquement le questionnaire du domaine à partir des informations
contenues dans les fichiers textes sur les objets, les attributs et les valeurs. La
pile génératrice est instanciée dans le dossier du domaine d'application et prend
le nom du questionnaire du domaine comme par exemple “Questionnaire
Hyalonema” (figure 4).
Le dossier des images contient trois piles qui permettent d'illustrer les objets
et attributs du modèle par des dessins explicatifs (figure 3) :
Fig. 3 : Les piles permettant d'illustrer le domaine
HyperScan est une pile d'Apple Computer. Elle permet de numériser avec un
scanner des images ou dessins en noir et blanc qui seront importés dans le
questionnaire. Dès qu'un nouveau modèle est créé, les piles “Observable” et
“Observé” sont copiées dans le dossier de l'application afin de recevoir les
images des objets observables et des objets observés du domaine.
Les images des objets observables illustrent les concepts de l'expert.
L'utilisateur peut ainsi mieux comprendre son vocabulaire. Les images des
objets observés se rapportent aux cas décrits avec le questionnaire. C'est
l'utilisateur cette fois qui illustre sa description par des images des objets du cas
présent. Elles permettront à l'expert de comprendre l'interprétation des
observations de l'utilisateur en retour.
Si un dossier sur des images a été constitué pour illustrer les objets ou attributs
observables, le questionnaire pourra être personnalisé automatiquement dans sa
phase de construction ultérieure.
268
Annexe 4
IV-1.2 Le dossier de l'application du domaine
A titre d'exemple, la figure 4 ci-dessous montre la composition du dossier de
l'application sur les Hyalonema :
Fig. 4 : Le dossier de l'application des Hyalonema
La pile “Modèle Hyalonema” est la pile principale du modèle. Il s'agit de la vue
globale où sont visibles les objets reliés entre eux par des relations de
dépendances (principalement les relations de sous parties et de points de vue).
La pile “amphidisques” est la pile de ce composant du domaine que l'expert a
voulu préciser en introduisant une hiérarchie d'héritage entre lui-même et ses
sous-objets.
La pile “Questionnaire Hyalonema” est celle qui est instanciée automatiquement
(par programme) à partir du modèle et qui permet d'acquérir des cas.
Le dossier des images contient les images observables et observées du domaine
dans deux piles : “Observable Hyalonema” et “Observé Hyalonema” (figure 5) :
Fig. 5 : Le dossier Images des Hyalonema
269
Architecture d’HyperQuest
On peut noter la règle d'instanciation suivante dans HyperQuest : Toutes les piles
d'une application ont un nom qui se termine par le nom du domaine et sont
regroupées dans le dossier du nom de l'application.
Le fichier ASCII “Hyalonema.config” est le fichier de configuration de
l'application qui permet de communiquer les informations importantes (chemins
d'accès, variable à expliquer, etc.) entre les différents modules du système
d'apprentissage.
Le dossier Casuel (figure 6) permet de stocker toutes les données au format
CASUEL pour KATE et CaseWork. Ces données sont écrites dans des fichiers
ASCII différents selon leur nature :
Fig. 6 : Le dossier Casuel des Hyalonema
Le modèle descriptif engendre trois fichiers d'objets, de types, et d'attributs
formant les définitions CASUEL du modèle descriptif.
Le questionnaire construit un autre fichier de cas contenant toutes les
descriptions observées avec leurs identifications associées.
Enfin un dernier fichier de configuration est produit aussi bien par le modèle
descriptif que par le questionnaire. Ces fichiers sont les points d'entrée en
CASUEL du système KATE et CaseWork.
Le dossier Descriptions contient deux fichiers ASCII de description des cas
(figure 7) :
Fig. 7 : Le dossier Descriptions des Hyalonema
270
Annexe 4
Le premier fichier CasLevi est le nom du fichier des cas donné par l'expert. Ces
descriptions sont lisibles par un non informaticien et forment un premier essai de
construction de descriptions naturelles pour l'édition manuscrite et la
comparaison de cas (voir figure 2.4, phase 2).
Le second fichier est le même fichier de cas plus facilement interprétable par
HyperQuest mais moins lisible que le premier.
Remarques :
1) les fichiers ASCII sous le traitement de texte Word sont reconnaissables par la
justification à gauche des lignes de texte de l'icône du bureau. Le fichier de cas
de la figure 6 est représenté par l'icône standard des fichiers textes ASCII.
2) Les piles contiennent à la fois du code compilé en C et HyperTalk 2.1 sous
forme de commandes externes (XCMD et XFCN). Il n'est pas nécessaire de
d'apprendre le langage C et HyperTalk pour utiliser HyperQuest. Mais la
connaissance des concepts d'HyperCard est néanmoins utile pour bénéficier de
tout l'environnement de création de dessins. HyperQuest laisse en effet à
l'utilisateur toute la panoplie des outils propres à HyperCard qui lui permettront
de personnaliser les cartes du questionnaire s'il le désire.
3) Il y a 5 niveaux d'utilisation des piles HyperCard : de la navigation (niveau 1)
jusqu'à la programmation (niveau 5). Pour utiliser HyperQuest, il faut se trouver
au moins au niveau 2 (texte). Néanmoins dans cette première version
d'HyperQuest, le niveau d'utilisation est laissé en mode programmation.
V
SYNTAXE BNF * POUR LE LCRC
Nous décrivons dans cette section la syntaxe du Langage Commun de
Représentation des Connaissances (LCRC) que nous avons mis au point. Il sert
à interfacer les différents modules d'une plate-forme d'aide à la description, à la
classification et à la détermination des objets biologiques. Les expressions
LCRC se trouvent dans des fichiers ASCII (un fichier pour les attributs, un pour
les objets, un pour les valeurs d'attributs et un pour les cas).
Le langage LCRC est à base de rubriques commençant par des mots clés (ce qui
permet aux différents outils de ne pas interpréter les rubriques qui ne leur sont
pas destinées) et est facilement extensible par l'ajout de nouvelles rubriques. Il
permet d'associer des informations aux objets, aux attributs et aux valeurs
d'attributs.
V-1 Notes sur les grammaires BNF
Les parenthèses apparaissent telles quelles dans le texte. [, {, <, *, + sont des
marques syntaxiques de la grammaire BNF. <> indique une rubrique détaillée
plus loin. [] indique que le contenu est optionnel, {} sont des délimiteurs pour
borner leur contenu. Ils peuvent être suivies de * ou de + : * indique que ce qui
est entre {} apparaît 0 ou plusieurs fois, + au moins une fois et peut-être
plusieurs fois. A l'intérieur de {} et [], une barre verticale indique des choix
mutuellement exclusifs.
En résumé :
*
{x}* signifie 0 ou plusieurs occurences de x,
{x}+ une ou plusieurs occurences de x,
[x] 0 ou 1 occurence de x,
{x | y} soit x soit y.
Forme de Backus-Naur.
272
Annexe 4
V-2 Les définitions LCRC du modèle descriptif
V-2.1 Syntaxe des objets
<objet> ::= (defobject <nom d'objet>
[(superObject <nom d'objet>+)]
[(subObject <nom d'objet>+)]
[(subparts <nom d'objet>+)]
[(part-of <nom d'objet>+)]
[(relations <nom d'attribut>+)
[(slots <nom d'attribut>]
[(question <string>)]
[(string <string>)])
ex: (defobject tache-sur-feuilles (sup tache)
(slots nombre confluence variabilite couleur)
(string "tache sur feuilles"))
V-2.2 Syntaxe des attributs
<attribut> ::=
(defslot <nom d'attribut> <nom d'objet>
{nominal | ordinal | integer | real | relation}
(range <range>)
(cardinal <cardinal>)
[(question <string>)]
[(string <string>)]
[<additional statement>])
<range> ::= {<nominal range> | <numerical range> | <relation range>}
<nominal range> ::= <value>+
<numerical range> ::= <value> <value>
;;
;;
;;
;;
Ce sont les valeurs possibles de l'attribut. Pour les numériques, la première
valeur est la borne inférieure et la seconde la borne supérieure. * veut dire ici
l'infini (cas particulier par rapport à la marque syntaxique de la grammaire).
Ex: (defslot taille integer (range 0 *) (cardinal 1))
Syntaxe BNF pour le LCRC
273
<relation range> ::= <nom d'objet>+
<cardinal> ::= {1 | <card inf> <card sup> | <card inf> *}
;; * signifie n'importe quel nombre de valeurs au dessus de <card inf>.
<additional statement> ::= <keyword> <definition>
<keyword> ::= <symbol>
<definition> ::= <any ASCII character>
V-2.3 Syntaxe des valeurs
<valeur> ::= (defvalue <nom de valeur>
[(SuperValue <nom de valeur>)]
[(SubValue <nom de valeur>+)]
[(String <string>)])
Note : Une valeur peut être soit la valeur d'un attribut d'un objet, soit un
diagnostic.
V-3 Les descriptions LCRC du questionnaire
V-3.1 Syntaxe des cas
<cas> ::= (defcase [<numéro de cas>] [<nom du cas>] [<commentaire>]
[<diagnostic>]
; un cas sans diagnostic peut être utilisé en auto-consultation
<description>)
<numéro de cas> ::= (number <positive integer>)
<nom de cas> ::= (name <string>)
<diagnostic> ::= (diagnosis <nom de diagnostic>+)
<commentaire> ::= (comment <string>)
<description> ::= (description
(case <description d'objet>)
{(<nom d'objet> [: <identificateur>] <description d'objet>)}*)
274
Annexe 4
;; l'identificateur (nom d'objet) est nécessaire lorsqu'il y a plusieurs objets de
même type.
<description objet> ::=
[(subparts {<object> | (<object> <identificateur>+) |
(<object> ?) | (<object> none)}+)]
<attribut>*
;; none dénote la liste vide (c’est-à-dire un marqueur indiquant qu'il n'y a pas
;; d'objet de ce type)
<attribut> ::= (<nom d'attribut> {<value> | ?})
;; ? dénote l'inconnu
<valeur d'attribut> ::= {<valeur simple> | (<valeur simple>+) | none}
<valeur simple> ::= {symbole | <valeur numérique>}
<string> ::= "<lettre alpha-numérique sans guillemets>"
VI
INDUCTION AND REASONING FROM
CASES
Michel MANAGO (1) , Klaus-Dieter ALTHOFF (2) , Eric AURIOL (1), Ralph TRAPHÖNER (3) ,
Stefan WESS (2) , Noël CONRUYT (1) , Frank MAURER (2)
1
Introduction
We present the INRECA european project (ESPRIT 6322) on integration of induction and casebased reasoning (CBR) technologies for solving diagnostic tasks. A key distinction between
case-based reasoning and induction is given in [1]: "In case-based methods, a new problem is
solved by recognising its similarities to a specific known problem then transferring the solution
of the known problem to new one (...) In contrast, other methods of problem solving derive a
solution either from a general characterisation of a group of problems or by search through a
still more general body of knowledge". In this paper, we distinguish between a pure inductive
approach and a case-based one on the basis that induction first computes an abstraction of the
case database (ex: a decision tree or a set of rules) and then uses this general knowledge for
problem solving. During the problem solving stage, the system does not access the cases.
2
INRECA’s inductive and case-based approaches
Induction is a technology that automatically extracts general knowledge from training cases.
KATE is the inductive component of INRECA. It builds a decision tree from the cases by using
the same search strategy, hill-climbing, and same preference criteria that is based on Shannon's
entropy as ID3 [2]. Unlike most induction algorithms, KATE can handle complex domains
where cases are represented as structured objects with relations and it can use background
knowledge. At each node, KATE generates the set of relevant attributes of objects for the
current context and selects the one that yields the highest information gain. For instance, an
attributes such as “pregnant” for a patient whose sex is known to be “male” further up in the
decision tree is eliminated before the information gain computation. Background domain
knowledge and class descriptions allow to constrain the search space during induction [3].
Case-based reasoning is a technology that makes direct use of past experiences to solve a new
problem by recognising its similarity with a specific known problem and by applying the
known solution to the new problem. PATDEX is the case-based component of INRECA. It
consists of two case-based reasoning subcomponents for classification and test selection. A
procedure that dynamically partitions the case base enables an efficient computation and
updating of the similarity measures used by the CBR subcomponents. For the classification
subcomponent, the applied similarity measures are dynamic. The underlying evaluation
(1) AcknoSoft , 58a rue du Dessous des Berges, 75013 Paris - France. (2) University of Kaiserslautern, dept. of Computer
Science, PO Box 3049, 6750 Kaiserslautern - Germany. (3) tecInno GmbH, Sauerwiesen 2, 67661 Kaiserslautern - Germany.
276
Annexe 5
function is adapted using a connectionist learning technique (competitive learning). For the test
selection, the adaptation of similarity measures is based on an estimation of the average costs
for ascertaining symptoms using an A*-like procedure. PATDEX can deal with redundant,
incomplete, and incorrect cases and includes the processing of uncertain knowledge through
default values. PATDEX is described in [4] and [5].
3
The need for integration
INRECA integrates induction and case-based reasoning so that they can collaborate and provide
better solutions than they would individually. Before describing how integration is performed,
we first state why the two approaches are complementary. Induction presents some limitations
for building an identification system that can handle missing values during consultation.
Consider the following case base drawn from an application that identifies marine sponges
developed at the Museum of Natural History in Paris.
CASE
CLASS
Ex1PARADISCONEMAELLIPSOID
Ex2COSCINONEMACONICAL
Ex3CORYNONEMAELLIPSOID
... ...
...
SHAPE(BODY)
LARGE
LANCET-SHAPE
LANCET-SHAPE
...
TEETH-TIP(MACRAMPHIDISQUES)
...
...
...
...
...
Table 1 - A database of cases for an application which identifies marine sponges
KATE works in two steps: it first learns a decision tree and then uses the tree to identify the
unknown class of a new incoming sponge. Consider what happens when the user does not
know how to answer the first question asked during consultation of the tree of figure 1.
teeth-tip(macramphidisques)= ???
When
the
user
answers
lancet-shape
"unknown", KATE proceeds by
large
following both branches "lancetshape(body) = conical
paradisconema: ex1
shape" and "large" and combines
ellipsoid
conical
the conclusions found at the
leaves. In the "large" branch, it corynonema: ex3
coscinonema : ex2
reaches the "Paradisconema" leaf Figure 1: A consultation of the decision tree learned by KATE
node. In the "lancet-shape"
branch, it reaches a test node and the user is queried for the value of the "shape" of the object
"body". He answers "conical". KATE reaches the "Coscinonema" leaf and combines the two
leaves to conclude that the current case is a "Paradisconema" with a probability of 0.5 or a
"Coscinonema" with a probability of 0.5. Consider case ex1 at the "Paradisconema" leaf node.
The feature "shape(body)" of ex1 has the value "ellipsoid" unlike the current case where it is
"conical". Thus, the current case is closer to ex2 than to ex1 and the correct conclusion is
"Coscinonema" with a probability of 1. Unfortunately, the information about the “body shape”
of ex1 was generalized away during induction and is no longer available during consultation.
Note that there are other methods for handling unknown values during consultation of a tree.
Instead of combining branches, one can assign a probability to the branches [6] and follow the
277
Induction and Reasoning from Cases
most probable one. However, this does not remove the problem presented above. This problem
is not caused by a flaw of the particular induction algorithm used by KATE since we could have
used another algorithm and encounter a similar problem. It is not a flaw of the decision tree
representation formalism since we could have used production rules generated automatically or
manually and still run into this same problem. It is caused by the fact that we are reasoning
using an abstraction of the training cases and have generalized away and thus lost some
discriminant information. If the consultation system is to handle any configuration of unknown
values, such as for applications that deal with photo-interpretation of objects whose features
may be hidden in any combinations, case-based reasoning will always perform better than rulebased, decision tree-based or even neural network-based identification systems.
This has been confirmed by a set of experiments conducted using PATDEX. We have
measured its ability to reach a correct solution when the working case is incomplete (i.e.
contains unknown values). Experiments have been conducted with a training set of one
hundred cases. The test set also consists of one hundred cases. For every test case the number
of known symptom values has been stepwise reduced. Classification accuracy is measured
against reduction of the presented information. The results are shown in table 1. Here, a
reduced information of 70% means that every case is classified based on 30% of its known
symptom values (where 60% of such cases have been correctly classified).
Reduced information (%)
Classification accuracy (%)
0
100
10
99
20
97
30
96
40
91
50
90
60
76
70
60
80
28
90
11
100
0
Table 2 - Measuring Correctness against Reduction of Information
As confirmed by this set of experiments, up to a certain limit, classification accuracy is not
significantly decreased by reducing the number of known attribute values in the current case.
For instance, when half of the values are missing the system still correctly identifies 90% of the
test cases. When using induction, a single missing value for an attribute in the decision tree
(this corresponds to a 0.5% reduction in the information available) yields a loss of 50% in
accuracy. When a feature is unknown, a case-based reasoning tool looks for alternative features
to identify the current case. CBR reacts dynamically and exploit all the information available. In
addition, a CBR system is more resilient to errors made by the user during consultation since it
computes a similarity measure from the global description of the cases and not a minimal subset
like with the inductive approach. It can confirm the conclusions by asking additional questions
that modify the similarity measure accordingly.
This does not imply that CBR always performs better than induction. During the first year of
INRECA, we have defined a catalog of industrial criteria to conduct experiments and compare
the two technologies. Our criteria catalog does not merely adresses technical issues such as
performance and effectiveness, but also ergonomic and economic aspects such as user
acceptance of the technology (domain specialist, naive end-user, data clerk, case engineer etc.),
ease to build, validate and maintain the application and so on. After analysis, we claim that
induction and CBR are complementary techniques and that integrating these will improve their
standalone capabilities. Our comparison is summarized in the next section. The criterias have
278
Annexe 5
been introduced in hierarchical weighted grids to compare in an objective and exhautive manner
the induction and CBR components of INRECA as well as other existing tools.
4
Comparison of induction and CBR
We summarize the respective merits of the techniques in the following table. Although the
experiments have been conducted using PATDEX and KATE, the conclusions drawn are
applicable to the underlying technologies in general. Note that according to the distinction
between induction and CBR that has been explained in the introduction, we view tools that
access the training cases to incrementally maintain the induced rules or trees as CBR tools.
Advantages of PATDEX (CBR)
Advantages of KATE (Induction)
The application is always up-to-date because CBR can
work incrementally.
CBR handles missing values during consultation and
makes optimal use of the information available.
The consultation is consistent: what is true today will
be true tomorrow (unless the tree has been updated).
The decision tree can be compiled into a runtime that
does not require the case base to do diagnosis. It can
be easily integrated in the customer's environment.
CBR can widen the set of current hypothesis whereas The system supports exploratory data analysis and
induction only shrinks it.
does consistency checks in the data base.
The CBR consultation is more flexible for the user of The domain specialist can influence or even impose
the consultation system. It can be driven by the user
how the consultation is done by modifying the tree by
who supply the information he wants instead of being hand. He controls the consultation process.
guided step by step through a decision tree. It can
handle sensor input and react dynamically to the data.
The CBR consultation is more resilient to errors.
A classification of the data can be constructed based on
After finding a conclusion, the current solutions can
the information contained in the tree.
be confirmed or refuted.
Analogies can be made based on the whole case
Induction produces a generalisation of the cases and
description instead of a minimal subset.
turns data into knowledge.
The similarity measure used by PATDEX can evolve
over time and is adaptable.
The current consultation can be explained to the user
The current consultation can be explained to the user
by presenting previous cases.
by presenting the classification rule.
CBR interprets cases dynamically.
The consultation of the learnt tree is more performant
than the CBR consultation
Table 3 - Cost-Benefit Analysis of Induction and CBR
5.
Integrating induction and CBR
Four critical levels of integration have been identified. For the first level, the two techniques are
seating side-by-side and are provided as stand-alone modules that work on the same case data
expressed in the CASUEL object-oriented language (toolbox strategy). This is useful
because a single technique may match the user’s needs for a particular application, while a
combination of both may not. In addition, a decision tree produced by induction allows to
detect the inconsistencies of a case database before its use by a case-based reasoning module.
For the second level of integration, the two techniques are able to exchange results via the
CASUEL representation language (cooperative strategy). The results of one may help to
improve the efficiency and to extend the classification capabilities of the other. More precisely,
Induction and Reasoning from Cases
279
a decision tree produced by induction can speed up the consultation by the case-based reasoner.
The case-based reasoner can supplement the decision tree when choosing among different
conclusions (case-based reasoning is started at the end of the consultation of the tree or during
consultation when encountering unknown values). The third level of integration allows the
combination of individual modules of the tools (workbench strategy). For instance, the
information gain measure module may be used to choose the next attribute to be asked during
an interactive CBR consultation. The last level fulfils the final goal of INRECA (seamless
integration) by mixing the most relevant parts of the two technologies in a single system.
Two critical modules are identified: the information gain computation module for the induction
technique, and the similarity computation module for the case-based reasoning technique.
Our main point is that a single system will never meet the needs of everyone. INRECA offers
several integration possibilities and must be configured to meet the requirements of a particular
application or of a particular category of users. For instance, a naive end-user must be guided
step-by-step by the consultation system in a decision-tree like fashion. On the other end, a
domain specialist wants to directly supply whatever information he feels is relevant and remain
in control of the consultation system. Moreover, what may be viewed as an advantage of a
technology in a given context may turn out to be a drawback in another. For instance,
incrementality can be seen as an advantage of CBR over induction to maintain the consulation
system automatically and keep up with the knowledge that workers learn through their daily
experience. On the other end, we are currently working with an equipement manufacturer who
distributes the diagnostic system to his customers and who wants to control the advices that are
given to the users (let it be for legual reasons). Thus, he prefers a system that does not evolve
permanently and that behaves in a predictable way. In that context, the incrementality is a
drawback since he wants to compile the case data into an induction tree that is maintained by
him periodically. Finally, one technique may be better adapted at a specific stage of the
application life cycle (for example, CBR at the begining to enrich the case database) but not at a
later stage (for example, induction can compile the case database when it becomes too big and
when efficiency becomes a problem). Thus, INRECA provides several options for the four
levels of integration and can be configurated by the application developper . In the next section,
we present an architecture that deals with the problem of handling unknown values using CBR,
but that pre-index the cases using a decision tree for efficiency.
280
Annexe 5
Toolbox level
Induction
Case-based
reasoning
Cooperative level
Induction
Results in CASUEL
Case-based
reasoning
Workbench level
Communication
Induction between Modules Case-based
reasoning
Integrated level
Induction
Case-based
reasoning
Figure 2. Four integration levels between Kate and Patdex
6. An integration architecture to handle missing values efficiently
As stated in section 3, one main drawback of a decision tree consultation occurs if the user
answers “unknown” to a test. Unknown values propagate an uncertainty along all the branches
of the “unknown node" - we define an unknown node as a node where the user answers
“unknown” during the consultation of the tree although a subsequent test may remove this
uncertainty. Moreover, the final diagnosis is probabilistic which is confusing for a non expert
user. One way to deal with unknown values in the consultation of a tree is to switch to a casebased reasoning procedure after consulting the tree. When an unknown value is encountered,
the consultation of the tree is stopped and the case-based reasoner is used to choose the next
tests. The probabilistic diagnoses delivered by Kate may also be refined by using the similarity
measure of the case-based reasoner. A workbench integration is needed. The procedure when
encountering an unknown value in the consultation of the decision tree is presented below:
1.
2.
3.
Get the current situation given by the first tests
of the tree.
Get the current subset of the cases listed under the
unknown node.
Switch to Patdex by using the current situation and
the current set of cases.
Procedure for Switching between Kate and Patdex
This procedure combines the advantages of both techniques for efficiency and correctness. In
the worst case, the user answers unknown at the root node and we are left with a classical CBR
consultation. In the best case, the user never answers unknown and we are left with a classical
decision tree traversal mechanism that is very efficient.
Conclusions
Induction and case-based reasoning are complementary approaches for developing experiencebased diagnostic systems. Induction compiles past experiences into general knowledge used to
solve problems. Case-based reasoning directly interprets past experiences. Both technologies
Induction and Reasoning from Cases
281
complement each other. Induction is used for detecting inconsistencies in the case data base,
case-based reasoning is used during consulation to retrieve similar cases when there are missing
values. The induction system can compute a tree to index cases on a predefined number of
levels in order to improve the efficiency of case-based reasoning. After traversing that partial
tree (interactive consultation), we are left at a leaf node with an initial candidate set that can be
passed to the case-based reasoning system. As a consequence, the case-based reasoner works
on a much smaller set of candidates. The partial decisions can be confirmed or refuted by the
case-based reasoner. In the latter case the tree needs to be updated.
Acknowledgement
Funding for INRECA has been provided by the Commission of the European Communities (ESPRIT contract
P6322). The partners of INRECA are AcknoSoft (prime contractor, France), tecInno (Germany), Irish Medical
Systems (Ireland), the University of Kaiserslautern (Germany). KATE is a trademark of Michel Manago. We
thank Prof. Claude Lévi and Mr Jacques Le Renard at the Museum of Natural History in Paris for providing the
sample application used to illustrate some of the ideas presented here. We also thank Mr Thomas Schultz who
has helped us refine our criteria list and who validated and filled our comparison grids for several CBR tools.
References
[1]
Bareiss, R. (1989). Exemplar-Based Knowledge Acquisition. London: Academic Press
[2]
Quinlan, R. (1983) Learning efficient classification procedures and their application to chess end games. In
R. S. Michalski, J. G. Carbonell & T. M. Mitchell (Eds), Machine Learning: An Artificial
Intelligence Approach (Vol. 1). Morgan Kaufmann.
[3]
Manago M. (1989). "Knowledge Intensive Induction", proceedings of the sixth "International Machine
Learning workshop", Morgan Kaufmann.
[4]
Althoff, K.-D. & Wess, S. (1991). “Case-Based Knowledge Acquisition, Learning and Problem Solving in
Diagnostic Real World Tasks”. Proc. EKAW-91, Glasgow & Crieff; also: GMD-Studien Nr. 211 (edited
by M. Linster and B. Gaines)
[5]
Richter, M. M. & Wess, S. (1991). “Similarity, Uncertainty and Case-Based Reasoning in PATDEX”.
Automated Reasoning - Essays in Honor of Woody Bledsoe, Kluwer Academic Publishers
[6]
Quinlan, J. R. (1989). “Unknown Attribute Values in Induction”. Proceedings. of the Sixth International
Workshop on Machine Learning, pp. 164-168,. Morgan-Kaufmann.
MODÉLISER
DÉCRIRE
TAXONOMIE ASSISTÉE
PAR ORDINATEUR
CLASSIFIER - DÉTERMINER - IDENTIFIER
Téléchargement