
Georgette DAL, Fiammetta NAMER
INTRODUCTION
En recherche documentaire, on se trouve sans cesse confronté à
l'émergence de mots nouveaux, absents des dictionnaires de langue
générale. Par exemple, alors que (Le Monde 1993), désormais LM93, et
l’(Encyclopedia Universalis 1995), désormais EU, donnent à eux deux à
observer 45 occurrences de l’adjectif détectable, c’est vainement qu’on
cherchera ce mot dans le Robert électronique (RE), dans le Trésor de la
langue française (TLF) ou dans le Nouveau Petit Robert (NPR), qui à eux
trois assurent pourtant une bonne couverture du lexique attesté
synchronique 1. Par exemple encore, le nom traçabilité, également absent
des trois dictionnaires cités, figure à 43 reprises dans (Le Monde 99),
désormais LM99.
Or, très souvent, ces mots hors dictionnaires sont des unités lexicales
construites 2 qui, en tant que telles, ont un sens prédictible à partir de leur
structure. Par exemple, le sens construit de l’adjectif détectable est une
fonction du sens instructionnel du suffixe -able appliqué au sens descriptif du
verbe détect(er) - il marque la possession par le référent de son nom recteur
d’une propriété latente activable par l’effectuation du procès qu’exprime le
verbe détect(er) 3-, le sens construit du nom traçabilité en est une du sens
instructionnel du suffixe -ité appliqué au sens descriptif de l’adjectif traçable –
à la manière d’un nom, il exprime la propriété qu’exprime sa base traçable -,
et c’est bien comme tels que sont utilisés ces dérivés dans les citations
suivante [c’est nous qui soulignons] :
La théorie de l’information postule que, pour être détectable au mieux,
un signal doit être émis dans une bande de fréquence extrêmement
étroite. (EU, s.v. exobiologie)
Le ministère entend organiser cette traçabilité totale des OGM, du
champ jusqu'au produit fini. (LM99, 9 oct. 98, p. 10)
En plus d’être construits, ces mots relèvent majoritairement de langues
dites de spécialité (technolectes scientifique, philosophique, médiatique,
économique, etc.), si bien que donner des outils pour les répertorier et les
analyser peut permettre d'enrichir une base terminologique.
L’objectif de cet article est précisément de présenter un système de
génération et d’analyse automatiques d’unités lexicales construites a priori
absentes les dictionnaires de langue générale, dans lequel chacune de ces
unités s’assortit d’une double analyse, structurelle et sémantique.
Après avoir présenté le contexte global dans lequel s’inscrit le système
de génération et d’analyse automatiques d’unités lexicales construites objet
de cet article (§ 1.), nous ferons un état de l’art sur le traitement automatique
1 Détectable est en revanche reconnu par le vérificateur orthographique de Word97.
2 (Froissart C. & Lallich-Boidin G. 1996) notent que 32% des formes non reconnues
par l’analyseur morphologique CRISTAL développé dans le cadre de l’action
d’évaluation GRACE sont des mots construits ; si on exclut les erreurs
typographiques et orthographiques, l’autre grand contingent des formes non
reconnues est constitué de noms propres (cf. Maurel D. et al. 1996) et de sigles.
3 (Cf. Hathout N. et al. à paraître).