Essai de remise a jour de la doc pour BRILL14-JL5

publicité
Josette Lecomte
INaLF/CNRS
décembre 1998
LE CATÉGORISEUR
BRILL14-JL5 / WINBRILL-0.3
(Catégoriseur d’Eric Brill, Université de Pennsylvanie, entraîné pour le Français à l’INaLF
PLAN provisoire :
Chapitre 1 : Présentation générale du Catégoriseur d’Eric Brill (U.Penn)
p. 2
Chapitre 2 : Le Jeu d’Etiquettes retenu pour BRILL14-JL5 (INaLF)
p. 4
Chapitre 3 : Critères d’assignation des étiquettes BRILL15-JL5
p. 7
Chapitre 4 : Ré-Apprentissages pour BRILL14-JL5
Généralités
Apprentissage à l’INaLF
p. 22
p. 22
p. 23
Chapitre 5 : BRILL14-JL5 : mode d’emploi à l’ INaLF
Appel du texte
Pré-Traitements
Etiquetage
Généralités
Modalités INaLF
Post-traitements
p. 28
p. 28
p. 28
p. 29
p. 29
p. 29
p. 31
Index
Bibliographie
p. 33
p. 35
1
Chapitre 1
Présentation générale du catégoriseur d’Eric Brill entraîné à l’INaLF
1. PRÉLIMINAIRES
Un « assignateur de catégories », ou « catégoriseur » est un outil d’étiquetage automatique de textes.
C’est un « annotateur » d’un type un peu particulier, qui permet d’affecter à chaque « mot » (ou à chaque
« terme ») d’un texte, une étiquette représentative de sa catégorie grammaticale, en « langue » ou en « discours ».
Il traite donc de la classe des mots.
Il se distingue d’un « parseur » qui traite des constituants plus larges, syntagmes et propositions, au niveau de la
phrase.
2. POINT DE VUE LINGUISTIQUE
1.a - Fondements linguistiques
Le catégoriseur de Brill est fondé sur les travaux des structuralistes américains (Bloomfiels, 1933 ; Harris,
1946,1951).
E. Brill l’a décrit dans sa thèse , dirigée par Mitchell Marcus, et soutenue à l’Université de Pennsylvanie en 1993
L’idée structuraliste, reprise de Harris et de son contemporain Wells par Brill est la suivante : Il vaut mieux
approcher la description d’une langue sans idée préconçue, et se fonder sur l’observation des faits linguistiques
rencontrés. On pourra ainsi découvrir les morphèmes à partir des phonèmes, les classes de mots à partir des mots,
etc. Par des procédures de classification, on pourra repérer des distinctions significatives, et si, de plus, on utilise
des techniques d’approximation, on arrivera à affiner le repérage.
Dans l’approche de Brill, une fois qu’un « informateur humain » (linguiste de préférence) a étiqueté un petit
texte-échantillon sélectionné au hasard dans un grand corpus à étiqueter, tout l’apprentissage est automatique. Il
n’y a pas de linguiste « de terrain », expert confirmé, qui travaille avec l’informateur et peut fournir une
information « intensionnelle » sur la langue à étudier. Le système utilise une distribution « extensionnelle »,
observée par lui dans le petit échantillon qui vient d’être manuellement annoté.
En plus, cette notion de distribution extensionnelle est, d’une certaine façon, élargie : Au lieu d’examiner
seulement la distribution des entités dans un corpus, une hypothèse dite « naïve » est lancée, concernant la
structure du langage (d’où un ériquetage des mots inconnus selon cette hypothèse), puis une analyse de la
distribution des erreurs est conduite, pour mettre en lumière des transformations à effectuer en vue d’éliminer ou
tout au moins de réduire les erreurs d’étiquetage.
1.b - Fonctionnement de l’étiqueteur
Cet outil de catégorisation peut fonctionner tel quel, si on lui fournit les « arguments » adéquats à faire figurer
dans la commande d’étiquetage (par exemple, si on veut réutiliser des fichiers pré-existants) .
Il est possible aussi de partir de rien, de laisser le système apprendre (selon le mode d’emploi fourni par E. Brill ,
dans un de ses fichiers « README » ) et créer tous les fichiers intermédiaires nécessaires à la bonne exécution
de la commande finale d’étiquetage.
Cet apprentissage se fait en deux étapes.
La première aboutit à la création d’un fichier de règles (dites « lexicales ») destinées à l’étiquetage des mots
inconnus. Elle peut être presqu’entièrement automatique, avec un rôle de l’humain réduit au minimum, c’est-àdire au codage du texte échantillon avec un ensemble d’étiquettes de PdeD (PdeD signifie ici « Parties du
Discours ») pré-établi par l’humain ou bien obtenu avec l’aide du système. L’information est ensuite extraite de
ce corpus échantillon étiqueté, par le système, avec les méthodes de l’analyse distributionnelle.
La seconde aboutit à la création d’un fichier de règles (dites « contextuelles ») nécessaires pour affiner
l’étiquetage, c’est-à-dire tenter de revenir sur des affectations erronées. Toujours à partir du même corpus
échantillon étiqueté manuellement, le système va déduire et apprendre une série de modèles de transformations
qui seront déclenchés cette fois par l’environnement contextuel du code précédemment assigné.
2
L’étiquetage se fait aussi en deux étapes, correspondant aux deux phases d’apprentissage :
Dans la première, chaque mot du texte (simple ou reconnu comme un composé) reçoit une étiquette
correspondant à sa PdeD la plus probable dans le contexte considéré, soit par consultation du Lexique où le mot
est connu, soit par application des « règles lexicales » si le mot est inconnu au Lexique.
Dans la seconde, le système revient sur ces premières affectations, examine le contexte local, et corrige
éventuellement les étiquettes précédemment affectées. A la fin de cette seconde étape, chaque mot aura reçu une
étiquette correspondant à sa classe « en discours », c’est-à-dire en contexte ( par exemple, un mot qui,
historiquement, est un adverbe, pourra se retrouver, en contexte, étiqueté comme un nom ou un pronom).
3. POINT DE VUE INFORMATIQUE
Ce catégoriseur est un outil dont l’intérêt essentiel réside dans un « auto-apprentissage » d’une sorte de Base de
Connaissances à partir de n’importe quel type de Corpus, avec n’importe quel type d’étiquettes de PdeD (ou
autres, car rien n’interdit d’utiliser des étiquettes sémantiques ou phonologiques pour préparer le corpuséchantillon...) , puis dans l’application à un autre plus grand corpus des connaissances apprises.
La connaissance apprise par le système sur le petit corpus-échantillon est projetée comme « probable », par le
même système, sur le plus grand corpus.
Il est « portable » sur d’autres corpus, et même sur d’autres langues que l’anglais sur lequel Brill l’a expérimenté.
La quantité d’information à lui fournir est réduite, puisqu’il apprend lui-même et automatiquement ce qu’il
estime nécessaire à la catégorisation la plus probable.
Il se présente sous forme de séries de fichiers, rangés dans des répertoires aux noms explicites, avec des fichiers
README formant un mode d’emploi clair et rigoureux.
La version 1.14 utilisée actuellement à l’INaLF (Institut National de le Langue Française)
fait suite à des versions 1.0 puis 1.10 précédemment explorées. Chaque nouvelle version a apporté des
améliorations (avec des opérateurs nouveaux, une plus grande souplesse dans l’apprentissage), favorisant une
plus grande efficacité et une meilleure convivialité avec l’utilisateur. De plus, une troisième étape de traitement
est en développement, visant à améliorer les résultats de la deuxième étape.
Cette version 1.14, entraînée à l’INaLF, y fonctionne sous UNIX et a récemment été « portée » d’Unix sous
Windows95. D’autres tests sont en cours avec Linux.
Pour la version UNIX : le logiciel, qui est celui d’Eric Brill tel quel, sans aucun ajout ni modifications est libre
d’accès selon son Copyright. Les fichiers utilisés pour son application au Français sont produits par l’INaLF.
La version portée sous Windows95 par Gilles Souvay est distribuée sous le nom de WinBrill-0.3,
moyennant signature d’une convention avec l’INaLF.
Les paramètres linguistiques qui y sont associés sont les mêmes, quelle que soit la version : Unix ou
Windows.
3
Chapitre 2
Le jeu d’étiquettes retenu pour la version BRILL14-JL5
1. LANGUE ET DISCOURS
Un de nos problèmes a été de définir à quel niveau nous allions coder le texte : Langue ? ou Discours ?
Un codage en "langue" va offrir un éventail de possibilités, en quelque sorte poser les ambiguïtés, hors contexte.
Un codage en "discours" va affecter une étiquette de PdeD selon l'emploi en contexte dans le message écrit
considéré.
Après de multiples tentatives,nous avons finalement opté pour un codage "en discours", "en contexte". Et ceci est
dû en grande partie au fait que nous voulons jouer le jeu du "taggueur" de Brill, qui se place dans cette optique.
2. QUEL SYSTÈME D'ÉTIQUETTES ?
Les analyseurs existants fonctionnent selon deux approches différentes : soit avec un ensemble d'étiquettes très
restreint, répondant aux besoins précis de l'utilisateur (ex. D.LABBE, qui travaille sur le français avec 16 codes
différents seulement), soit avec un ensemble d'étiquettes extensif, très complet, très précis, voulant fournir des
codes différents pour tous les mots ayant un comportement différent (ex. STEIN et DAMOVA à Stuttgart, avec
190 codes différents pour le traitement du français; ou encore les ensembles d'étiquettes utilisés pour l'anglais et
le codage du LOB Corpus (135) ou du London-Lund Corpus (197)).
Il y a donc deux approches : minimaliste et maximaliste, tout aussi intéressantes l'une que l'autre, et toutes deux
possibles avec un analyseur probabiliste tel que celui de Brill.
Le système d'étiquettes utilisé à l'INALF dans les Lexiques (TLFnome de MAUCOURT + PAPIN + REIMEN )
contient environ 100 codes différents pour 5 grandes catégories du discours (45 pour les verbes conjugués, 3
pour les verbes non conjugués, 4 pour les adjectifs, 4 pour les substantifs, et 47 pour la maxi-classe des "mots
grammaticaux"
(englobant pronoms, adverbes, prépositions, conjonctions, etc ...).Nous nous sommes servi de cet ensemble
d'étiquettes pour en dériver la nôtre, à partir de certaines recommandations d'E.Brill aux utilisateurs de son
catégoriseur:
Ces recommandations, (lues dans "Building a large annotated Corpus of English : The Penn Treebank" de Marcus, Santorini, Marcinkiewicz, 1993) sont fondées sur le codage d'un corpus de plus de 4,5 millions de mots;
cette tâche de codage selon les PdeD s'étant faite en 2 étapes : un première phase d'assignation automatique et
une seconde phase de correction par des humains.
On peut les résumer comme suit :
En fait, on peut utiliser un ensemble d'étiquettes réduit ou très détaillé si on le souhaite: tout dépend de la
stratégie choisie:
 Si on pense faire de l'analyse logique et de la reconnaissance de syntagmes et de propositions
("parsing") plus tard, on peut laisser en attente des choses qu'on récupérera plus tard (par exemple, avoir
au niveau du "tagging" un code syncrétique pour englober Prépositions/Subordonnants/Coordonnants,
code que l'on désambiguïsera plus tard).
Donc, ne pas coder des subtilités récupérables par la suite dans une étape ultérieure du travail.
 Si on veut pouvoir être cohérent lors de l'étape de codage manuel du corpus échantillon, il vaut mieux
réduire le nombre des étiquettes.Mais il faut que l'ensemble d'étiquettes retenu soit "optimal", avec des
codes distincts pour chaque classe de mots ayant un comportement grammatical différent en discours. Par
ex : inutile d'avoir pour l'anglais 20 codes de verbes rendant compte de cas particuliers quand 5 codes plus
généraux suffisent.
4
 Il faut, si l'on veut que le système apprenne certaines règles de désambiguïsation, coder le mot selon la
fonction "syntaxique" qu'il occupe en contexte.
Par exemple : "Si" sera codé Subordonnant quand il fonctionne comme conjonction de subordination, et
Adverbe quand il fonctionne comme adverbe intensif.
Si tu veux venir
-> SUB
il est si gentil
-> ADV
et non avec un code syncrétique disant qu'il peut être SUB ou ADV.
Les ambiguïtés de PdeD seront résolues en contexte (le plus souvent) et s'il existe une "indécidabilité" de
la part du codeur, le système affecte l'étiquette la plus probable en fonction de ce qui se trouve au lexique,
ou de ce qui se trouve dans les règles concernant les mots inconnus.
Ceci nous a fait opter pour un jeu d’étiquettes relativement réduit, avec des critères précis pour l'affectation des
codes.
3. LES PARTIES DU DISCOURS RETENUES :
Elles sont au nombre d'une cinquantaine, non incluses les ponctuations.
Les critères définis pour leur utilisation se trouvent au chapitre suivant.
Voici la liste des étiquettes PdeD adoptées pour notre expérience BRILL14-JL5 / WINBRILL-0.3
Etiquettes
ABR
ADJ :sg
ADJ :pl
ADV
CAR
COO
DTN :sg
DTN :pl
DTC :sg
DTC :pl
FGW
INJ
PFX
PREP
PRV :sg
PRV :pl
PRV :++
PRO :sg
PRO :pl
PRO :++
PUL
REL
SUB
SUB$
SBC :sg
SBC :pl
SBP :sg
SBP :pl
SYM
ACJ :sg
signification
Abréviation
Adjectif (sauf Participe passé) au singulier
Adjectif (sauf Participe Passé) au pluriel
Adverbe
Cardinal (en chiffres ou en lettres)
Coordonnant
Déterminant de groupe nominal, au singulier, non contracté
Déterminant de groupe nominal, au pluriel, non contracté
Déterminant de groupe nominal, au singulier, contracté
Déterminant de groupe nominal, au pluriel, contracté
Mot étranger
Interjection, Onomatopée, etc.
Préfixe détaché
Préposition
Pronom « supporté » par le verbe (conjoint, clitique) au singulier
Pronom « supporté » par le verbe (conjoint, clitique) au pluriel
Pronom « supporté » par le verbe (clitique, réfléchi) genre indéterminé
autre Pronom, singulier
autre Pronom, pluriel
autre Pronom, genre indéterminé
Particule non indépendante
Relatif (Pronom, Adjectif ou Adverbe)
Subordonnant
Subordonnant possible. = Code par défaut de « que »
Substantif, nom commun, singulier
Substantif, nom commun pluriel
Substantif, nom propre ou à majuscule, singulier
Substantif, nom propre ou à majuscule, pluriel
Symbole ou Signe mathématique
Verbe « avoir », conjugué, singulier
5
ACJ :pl
ANCFF
ANCNT
APAR :sg
APAR :pl
ECJ :sg
ECJ :pl
ENCFF
ENCNT
EPAR :sg
VCJ :sg
VCJ :pl
VNCFF
VNCNT
VPAR :sg
VPAR :pl
ADJ1PAR :sg
ADJ1PAR :pl
ADJ2PAR :sg
ADJ2PAR :pl
Verbe « avoir », conjugué, pluriel
Verbe « avoir », non conjugué, infinitif
Verbe « avoir », non conjugué, gérondif ou participe présent
Verbe « avoir »,non conjugué, participe passé, singulier
Verbe « avoir »,non conjugué, participe passé, pluriel
Verbe « être », conjugué, singulier
Verbe « être », conjugué, pluriel
Verbe « être », non conjugué, infinitif
Verbe « être », non conjugué, gérondif ou participe présent
Verbe « être », non conjugué, participe passé, singulier (pas de pluriel)
autre Verbe, conjugué, singulier
autre Verbe, conjugué, pluriel
autre Verbe, non conjugué, infinitif
autre Verbe, non conjugué, gérondif ou participe présent
autre Verbe, non conjugué, participe passé après « avoir », singulier
autre Verbe, non conjugué, participe passé après « avoir », pluriel
Participe passé après « être », adjectival ou verbal, au singulier
Participe passé après « être », adjectival ou verbal, au pluriel
Participe passé adjectival, singulier (non après auxiliaire)
Participe passé adjectival, pluriel (non après auxiliaire)
Cette liste est bien sûr incomplète. Il faut bien voir qu'elle est fonction de notre corpus échantillon. A ces 50
codes, il convient d'ajouter une quinzaine de signes de ponctuation.
6
Chapitre 3
Les Étiquettes de Parties du Discours : critères d’assignation
Remarque préliminaire : certaines étiquettes de PdeD peuvent contenir une valeur de trait "Nombre".
Par exemple, pour les Adjectifs, :xx sera obligatoirement instancié soit en :sg soit en :pl et pour les Pronoms, :xx
sera obligatoirement instancié soit en :sg, soit en :pl, soit en :++.
1. LES ADJECTIFS : ADJ:xx
1.1- Les Adjectifs reçoivent un valeur de trait "Nombre", singulier ou pluriel
Exemple :
ADJ:sg
ADJ:pl
1.2- Ce code concerne tous les adjectifs (qualificatifs, ordinaux, possessifs, indéfinis) par opposition aux
Déterminants qui sont des introducteurs de syntagmes nominaux (appelés DTN ou DTC)
Exemples :
- des besoins immédiats/ADJ:pl
- faire miennes/ADJ:pl les idées d'un autre
- la cinquième/ADJ:sg fosse
- le ivème/ADJ:sg chapitre (= le 4ième chapitre)
1.3- Cas des Adjectifs Participes Passés : voir " Participes"
1.4- Il n’y a pas de codage particulier pour les adjectifs au comparatif et au superlatif.
1.5- Les Adjectifs contractés sont considérés comme des Déterminants :
dudit, audit, desdits, auxdits sont étiquetés DTC (Déterminants contractés)
ladite, ledit, lesdits sont étiquetés sont étiquetés DTN (Déterminants normaux)
1.6- Les Adjectifs "adverbialisés" ou "adverbalisés" , ou "invariés" ou "invariables" (derrière certains verbes)
sont considérés comme des Adjectifs et non des Adverbes.
Exemples :
il crachait noir
ça tombe dru !
1.7- Les Transferts de catégories
 Cas des Adjectifs employés comme Adverbes :
Ils sont impossibles à discriminer par le système, étant donné le manque de finesse de l'information fournie
par le jeu d'étiquettes.
Les seuls ambigus ADJ:xx /ADV actuellement retenus sont "fin", "fort", "juste", "soudain". Tous les autres
sont codés ADJ:xx. (cf. supra)
Exemples :
il est fin prêt.
Tu parles fort,
c’est fort bon,
un garçon fort et courageux,
7
il arrive juste après la bagarre,
le juste prix des choses,
il est soudain devenu furieux,
un bruit soudain ,
 - Cas des Adjectifs substantivés :
Ils sont codés comme des Substantifs (noms communs).
il chante juste,
1.8- Les Ambiguïtés : Adjectif/Nom Adjectif/Pronom Adjectif/Verbe
Le système a été entraîné sur un corpus où l'ambiguïté a été levée selon le rôle tenu en contexte. Il tente donc de
lever l’ambiguïté en contexte.
2.- LES ADVERBES : ADV
2.1 Ce code concerne tous les adverbes, quel que soit leur contenu sémantique. Il peut concerner les Locutions
Adverbiales, qui ont été reconnues comme telles dans une phase de pré-traitement et regroupées avec un
« souligné » (underscore). Les autres sont décomposées en leurs divers constituants.
Exemples :
- hier/ADV
- presque/ADV
- environ/ADV
- ne/ADV
jamais/ADV
- pas/ADV
- point/ADV
- très/ADV..
- que/ADV de peine engloutie !
- combien/ADV en veux tu ?
- cette maison -ci/ADV
- d'_ailleurs/ADV
d'_abord/ADV
2.2- Il n’y a pas de codage particulier en ce qui concerne les adverbes prédéterminants
Exemple :.
presque/ADV tous les mois ...
A noter que "tout"/"toute"/"toutes"/"tous" en position de prédéterminants sont codés comme des déterminants et
non comme des adverbes.
2.3- Il n’y a pas de codage particulier non plus pour les adverbes au comparatif ou au superlatif.
2.4- Les particules déictiques ci et là sont traitées comme des adverbes, après avoir été pré-traitées pour leur
accrocher le trait d’union qui les précède.
2.5- Citons les cas particuliers de rien, beaucoup et peu :
- beaucoup est Adverbe possible (prévu au lexique comme Adverbe ou Pronom pluriel)
- peu est Adverbe possible (prévu au Lexique comme Adverbe, Pronom sing. ou Pronom pluriel)
- rien n’est pas prévu comme Adverbe possible (seulement Pronom ou Substantif)
3.- LES CARDINAUX : CAR
8
3.1- Les Cardinaux ne reçoivent pas de valeur de trait "Nombre".
3.2- Ce code concerne tous les numéraux cardinaux, écrits en chiffres ou en lettres, ainsi que les dates.
Exemples :
- 89/CAR
- cent/CAR mille/CAR francs
- deux/CAR cents/CAR dix/CAR mètres
mais :
- des millions/SBC:pl
- les deux/CAR tiers/SBC:pl
3.3- Il n'y a pas de subdivision des cardinaux selon leur fonction. Qu’ils soient Déterminants, Pronoms, ou
Noms, ils sont tous étiquetés CAR.
Exemples :
- il a quatre-vingt-douze/CAR ans
- chapitre xv/CAR
- les deux/CAR premiers sont morts.
- j'ai eu trois/CAR chiens et lui quatre/CAR.
- les deux/CAR amis que j'avais ne sont plus.
3.4- La distinction entre déterminant indéfini et cardinal, à propos de "un" et "une", n'est pas posée, car insoluble
au niveau où nous travaillons, avec l'outil que nous utilisons. Ils sont systématiquement considérés comme
déterminants ou pronoms, jamais comme cardinal.
4.-LES COORDONNANTS : COO
4.1- aussi appelées 'Conjonctions de Coordination'.
4.2- Ce code concerne : et, ou, ni, mais, or, car.
Mais aussi des expressions comme : c’est-à-dire, non_seulement, mais_encore
4.3 donc est considéré comme un adverbe.
sinon est préposition ou adverbe
etc..
4.4 chaque élément de coordonnant discontinu ( soit, ,soit ) reçoit un code de coordonnant normal.
5.- LES DÉTERMINANTS : DTN:xx ou DTC:xx
5.1- La subdivision en deux sous-classes correspond à une réalité pratique :
DTN:xx : sont des déterminants "normaux"
DTC:xx : sont des déterminants "contractés" :
soit : préposition (à, de, en) + Article défini (le, les).,
soit marqueur partitif (de) + Article défini (le,les)
5.2-Les déterminants reçoivent une valeur de trait "Nombre" , xx devant être instancié en sg ou pl.
9
5.3- Les Déterminants sont les introducteurs de syntagmes nominaux :
articles définis :
le, la, les
articles indéfinis :
un, une, des, certains, tout, ...
articles partitifs :
du, des, de
articles possessifs :
son, sa, ses, leurs, ..
articles démonstratifs :
ces, cette, cet, ce
articles quantifieurs :
plusieurs, quelques, aucune, ...
5.4- Cas particuliers des AMBIGUS PARTITIFS :
 "de" est ambigu "marqueur partitif" et "préposition", d'où les ambiguïtés portées par "du" et "des". Il est
impossible au système, au niveau morpho-syntaxique seul, de distinguer les deux rôles de "de".
C'est pourquoi le catégoriseur a été entraîné sur un corpus où cette distinction n'a pas été faite : "de" est
étiqueté préposition (sauf incohérence de la part du codeur humain).
Cependant, dans la suite du travail, nous avons trouvé quelques règles permettant d’affiner le codage. C’est
pourquoi il est prévu au Lexique avec les possibilités de Déterminant

"du" a été systématiquement étiqueté DTC:sg, car il est une contraction du marqueur partitif et de l'article
défini, ou une combinaison de la préposition et de l'article défini.

"des" a été étiqueté DTC:pl. DTC est un code "par défaut", car en plus des deux possibilités ci-dessus, "des"
peut aussi être l'article indéfini pluriel de "un".
Notes :
a)on aurait pu coder ces DTC en PREP-complexes, mais il a semblé plus efficace (si on veut garder des
indications de nombre, et éventuellement de genre) de les considérer comme des déterminants.
b)un travail de désambiguïsation a ultérieurement été tenté sur ces ambigus partitifs, avec un certain succès. Le
code DTC reste cependant l’étiquette par défaut lorsque la désambiguïsation a échoué.
Exemples :
- jusqu' au/DTC:sg pavé
- les/DTN:pl mineurs avec leurs/DTN:pl lampes
- affluaient de toutes/DTN:pl parts .
- la foi aveugle des/DTC:pl nouveaux arrivants
- au/DTC:sg milieu des/DTC:pl bancs
- je t'apporte des/DTC:pl pivoines du/DTC:sg jardin.
5.5- Certains déterminants peuvent être précédés d'adverbes "pré-déterminants", mais nous n'en avons pas tenu
compte dans la classification.
Les pré-déterminants (du type presque, environ,...) sont notés adverbes.
Le pré-déterminant tout est un cas particulier (voir ci-dessous,paragraphe 5.9).
Exemples :
- ces/DTN:pl enfants ne sont pas mes/DTN:pl enfants
- ça s'est passé mainte/DTN:sg et mainte/DTN:sg fois ...
- j'en veux juste/ADV une/PRO:sg
5.6- Attention à bien différencier les déterminants indéfinis et les adjectifs qualificatifs.
Les critères que nous retenons sont les suivants :
 placés entre un déterminant et un nom : adjectifs
 postposés au substantif : adjectifs
 antéposés au substantif, et en l'absence de tout autre déterminant, ils sont déterminants.
 antéposés à un déterminant non contracté, "tout" et ses variantes deviennent déterminants (voir ci-dessous,
cas particulier de "tout").
Exemples :
10
- certains/DTN:pl jours, il fait gris.
- il est d'un âge certain/ADJ:sg
- un certain/ADJ:sg monsieur X
- sans volonté aucune/ADJ:sg
- presque/ADV tous/DTN:pl leurs/DTN:pl gamins en veulent.
5.7- Les déterminants numéraux cardinaux sont codés comme des Numéraux et non comme des déterminants.
Exemple :
- deux/CAR femmes sont passées.
5.8- Un élément comme "L’", dans l'exemple "si l'on voulait" fait maintenant partie de la locution composée
« l’on » codée selon sa fonction , c'est à dire Pronom (dans les versions antérieures, il était étiqueté selon sa
fonction historique d’origine, c’est-à-dire article défini devant pronom) :
Exemple :
- si/SUB l'_on/PRV:sg voulait/VCJ:sg
A noter que d'autres pronoms peuvent être précédés d'un introducteur de syntagme nominal .
Exemples :
l'/DTN:sg un,
quelques/DTN:pl uns ...
5.9- Cas particulier de TOUT, TOUTE, TOUTES, TOUS
Le gros problème pour ce mot, c'est l'ambiguïté. Nous avons tenté d'établir des critères, mais ils sont loin d'être
fiables à cent pour cent.
 "tout", "toutes" sont considérés comme adjectifs lorsqu'il sont postposés au substantif ou placé entre un
déterminant et un substantif.
Exemples :
- au tout/ADJ:sg début
- le tout/ADJ:sg Paris
- somme toute/ADJ:sg
 "tout" est considéré comme substantif lorsqu'il est précédé d'un déterminant (contracté ou non), et non suivi
de substantif.
Exemples :
- le tout/SBC:sg est de savoir ce que vous voulez
- et mon tout/SBC:sg est une plante.
 "tout", "toute", "toutes", "tous" sont considérés comme des déterminants lorsqu'ils précèdent
-- un autre déterminant DTN, (ambiguïtés possibles ).
-- un pronom
-- un substantif
Exemples :
- tous/DTN:pl les/DTN:pl deux de promenaient.
- toute/DTN:sg ma/DTN:sg volonté est partie ..
- tous/DTN:pl mes/DTN:pl copains sont là
*-- ce sont tous/PRO:pl mes/DTN:pl copains
- tout/DTN:sg cela/PRO:sg est nul
- il avait pour tous/DTN:pl meubles un lit et une table.
 "tout", "toutes", "tous" peuvent aussi être considérés comme des pronoms (difficulté de choisir entre
substantif et pronom, les deux catégories pouvant être précédées d'un déterminant).
On les notera pronoms, par exemple, devant un verbe dont ils sont sujets, ou objets, mais en l'absence d'un
déterminant ..ou derrière une préposition, une conjonction ..
Exemples :
- toutes/PRO:pl passent par là
- elle voulait tout/PRO:sg avoir
11
- tous/PRO:pl sont venus et peu sont restés.
- et voilà tout/PRO:sg !
- il est joli comme tout/PRO:sg.
 "tout", "toute", "toutes", "tous" sont adverbes dans tous les autres cas. Par exemple devant un adjectif, un
adverbe, en tête de locutions adverbiales (non regroupées), etc.
Exemples :
- elle est toute/ADV seule
- ça passait tout/ADV juste/ADV
- tout/ADV en l'examinant, il chantonnait.
- je fais ça tout/ADV aussi bien qu'un autre.
- en avant toute/ADV !
- des salles toutes/ADV débordantes de monde.
6. LES INTERJECTIONS : INJ
6.1- Elles sont surtout utilisées en discours direct.
6.2- Peuvent être codées INJ :
- hélas (!), chut
- ouais, oui, non, ouiche, dame, ben, hein, nenni ...
7.- LES PARTICIPES PASSÉS: VPAR:xx, ADJ1PAR:xx, ADJ2PAR:xx
Ils ne reçoivent pas tous la même étiquette : tout dépend de leur environnement.
7.1- Sont notés VPAR:xx APAR:xx EPAR:sg les participes passés placés en syntagme verbal derrière
l'auxiliaire "avoir" (auxiliaire de temps).uniquement.
APAR:sg / APAR:pl : participe passé du verbe "avoir"
EPAR:sg :
participe passé du verbe "être"
VPAR:sg / VPAR:pl : participe passé de tout autre verbe .
Exemples :
- elle a mangé/VPAR:sg
- elle a été/EPAR:sg mangée
- elle a eu/APAR:sg faim
- les gens que j' ai vus/VPAR:pl
7.2- Sont notés ADJ1PAR:xx les participes passés placés derrière un verbe "être" uniquement, de façon à
pouvoir éventuellement récupérer la voix passive.
ADJ1PAR:sg / ADJ1PAR:pl : tout participe passé derrière "être"
Exemples :
- elle était fatiguée/ADJ1PAR:sg
- elle a été/EPAR:sg fatiguée/ADJ1PAR:sg
- j'ai été/EPAR:sg eue/ADJ1PAR:sg !
7.3- Sont notés ADJ2PAR:xx les participes passés placés dans TOUS les autres contextes (nominaux ou ambigus
ou derrière un verbe autre que "être" ou "avoir").
En fait, cela correspond à la notation par défaut de tout participe passé en contexte non verbal clair.
12
Exemples :
- une fosse tout équipée/ADJ2PAR:sg
- une telle somme engloutie/ADJ2PAR:sg
- il dormait assis/ADJ2PAR:sg
mais
- je suis tombée/ADJ1PAR:sg , et me suis relevée/ADJ1PAR:sg
(Dans les résultats d'étiquetage, ADJ2PAR est fréquemment attribué dans les séquences coordonnées et/ou
discontinues).
8.- LES PARTICULES : PUL
8.1- Cette étiquette concerne des éléments qui n'ont pas d'existence autonome et n’ont pas été regroupés dans une
locution composée figée
Exemple:
- quant/PUL à combiner avec au, aux
8.2- Un élément comme -T- dans un verbe "composé" (Verbe+pronom) est pris en compte de la façon suivante :
Exemples :
"aura-t-on" :
aura/VCJ:sg -t-on/PRV:sg
"aurait-on" :
aurait/VCJ:sg -/- on/PRV:sg
Plusieurs approches étaient possibles :
-- On aurait pu imaginer un Trait d'Union à sens plein, non détachable des éléments qu'il réunit
- trompe-la-mort :
SBC:sg
- amour-propre :
SBC:sg
et un trait d'union à sens vide, détachable des éléments qu'il associe en surface
- a-t-on vu :
a/VCJ:sg
-/- t/PUL -/- on/PRV:sg
- aurait-on pu :
aurait/VCJ:sg
-/on/PRV:sg
-- Nous en avons retenu une autre, qui combine ces deux approches, et qui est fonction aussi de la façon
s'effectue, pour un texte, la "mise aux normes selon E.BRILL" : Certains mots sont précédés du fameux "-" qui
leur est accolé, et d'autres non ("-" libre, entre deux blancs).
Dans cette liste finie, nous trouvons seulement six pronoms :
-t-on/PRV:sg -t-il/PRV:sg -t-elle/PRV:sg -t-ils/PRV:pl -t-elles/PRV:pl
- Rappel:
Un élément comme "l'", dans l'exemple "si l'on voulait" est codé non comme une particule, mais fait partie d’une
forme composée reconnue comme telle
- si/SUB l'_on/PRV:sg voulait/VCJ:sg
9.- LES PONCTUATIONS : l'étiquette reprend le "mot"
9.1 Il n'y a pas de code PON rendant compte d'une ponctuation. A chaque signe correspond un code identique au
signe en question.
Exemples :
,/, ?/?
///
9.2 - Fins de phrases :
 ponctuations simples :
?
!
.
et parfois
; :
 ponctuations groupées :
13
?…
?)
?]
?"
! ...
!)
.)
!]
.]
!"
."
9.3 - Le Trait d'union reste à l'intérieur d'un mot, ou bien est isolé entre deux blancs au hasard de la
"préédition" des textes pour le passage par le catégoriseur.
Le mot à trait d'union interne figure au lexique en tant que tel, et il est pris en compte comme une unité globale. Il
se peut que, selon les pré-traitements subis, il ait été décomposé en contituants puis re-collé avec utilisation du
caractère « souligné ».
Exemples :
- un meurt-de-faim/SBC:sg
ou bien
meurt_-_de_-_faim/SBC:sg
- cette maison -ci/ADV
ou
-_ci/ADV
- elle ira elle -même/ADJ:sg
ou
-_même/ADJ:sg
- mon ex/PFX -/- fiancé/SBC:sg
- une quasi/ADV -/- unanimité/SBC:sg
9.4- L'apostrophe ne se retrouve jamais entre deux blancs comme c'est le cas d'un élément de ponctuation
autonome. Elle est collée à l’élément qui précède.
9.5- Le tiret de discours indirect et les tirets qui se répondent sont isolés entre deux blancs. Ceci est vrai aussi
pour toutes les autres ponctuations. Il y a donc une très grande ambiguïté entre le trait d'union et les différents
types de tirets.
9.6- Problème des ponctuations dans les abréviations :
Le texte est "pré-édité" aux normes de Brill de façon automatique, par référence à un lexique existant. Cela
n'empêche malheureusement pas les problèmes, car il est difficile d'y recenser toutes les abréviations possibles.
10. LES PRÉFIXES : PFX
- Sont concernés par cette étiquette les préfixes détachés, isolés entre deux blancs ("entre", "ex", "micro" ...), que
cet isolement provienne de la volonté de l'auteur, ou d'une segmentation automatique du texte, liée à la mise aux
normes BRILL du texte à catégoriser.
- Cette étiquette est présente au lexique, est utilisée dans le corpus étiqueté manuellement, mais n'est pas du tout
productive au niveau des règles : Jamais le système n'affecte cette étiquette,de lui-même, à un mot d'un texte.
11.-LES PRÉPOSITIONS : PREP
11.1- Il s'agit des prépositions "simples" : à, de, par, jusqu’
11.2- Pour les prépositions plus complexes (= les Locutions), plusieurs cas se présentent:
-- l'un des éléments est une particule non indépendante :
- afin/PUL de/PREP
- quant/PUL à/PREP
-- certains éléments sont prépositions, un autre est plutôt nominal :
14
- en/PREP face/SBC:sg de/PREP
- au/DTC travers/SBC:sg de/PREP
- à/PREP travers/SBC:sg
Les locutions les plus fréquentes ont été regroupées en un mot composé, et étiquetées comme un mot. Tout au
moins lorsque le dernier des constituants est lui-même une préposition, ce qui est le cas dans les exemples cidessus.
Cependant, ces mêmes locutions prépositives n’ont pas été regroupées lorsque leur dernier constituant est
agglutiné à un article et forme lui-même un article contracté.
Exemples :
-afin_de/PREP
-quant_à/PREP
mais quant/PUL au/DTC:sg
-à_partir-de/PREP
mais à/PREP partir/VNCFF du/ DTC:sg
11.3- La sémantique de la préposition n'intervient pas dans le codage.
11.4- Les "prépositions composées" (="fused" en anglais) que sont les combinaisons Préposition + Article sont
interprétées par nous comme des Déterminants contractés.
C'est le cas de du, des, au, aux, ès.
11.5- Les prépositions déictiques (voici, voilà, revoici, revoilà) ne reçoivent pas d'étiquette particulière.
Notes:
"comme" n'est jamais une préposition, mais un subordonnant (introduisant une conjonctive normale ou tronquée),
ou un adverbe exclamatif.
"excepté", "vu" devraient être codés PREP dans leur comportement en tant que préposition, mais les exemples
sont rares et le système n'a pas appris de règles les concernant. Ils sont donc participes passés.
"de" n'est codé que PREP. L'impasse est faite sur ses possibilités DTN (équivalent à "des") et sur son possible rôle
de "marqueur quantitatif" dans l'article partitif.
12.-LES PRONOMS : PRV:xx et PRO:xx
12.1- Cette catégorie concerne les éléments pro-nominaux, à l'exclusion des relatifs (code REL).
12.2- Ils comportent une sous catégorisation en Nombre : sg, pl, ou ++
"++" (pour "indéterminé" ou "non pertinent") est attribué systématiquement à "en" et "y", et aussi à "s ‘ " et "se"
devant une forme verbale non conjuguée.
12.3- Ils sont subdivisés en 2 sous-classes, pour des raisons de comportement en relation avec le verbe :
a)-- PRV:xx : Les pronoms "supportés" par le verbe.
Ce sont uniquement les pronoms "conjoints" personnels sujets, compléments directs , réfléchis avec en plus les
pronoms adverbiaux :
- je tu il elle nous vous ils elles ce on
- me te se leur les la le
- lui
- en y
(qu'ils soient "clitiques", "atones" etc ... suivant les grammairiens auxquels on se réfère).
S'y ajoutent ceux de la liste préfixée par le trait d'union :
-t-on -t-il -t-elle -t-elles -t-ils ...
15
b)-- PRO:xx : Tous les autres pronoms
Ce sont les pronoms démonstratifs, possessifs etc..... et anaphoriques divers, ou "personnels", mais non dans le
même rapport que les précédents avec le verbe (souvent dans un complément prépositionnel, donc non direct):
 pronoms personnels :
- moi toi soi lui vous nous .....
 pronoms démonstratifs :
- ceci cela ceux ce ...
 pronoms possessifs :
Ils sont à bien différencier des adjectifs possessifs (eux-mêmes à bien différencier des déterminants
possessifs). Ils sont pronoms seulement lorsqu'ils sont précédés d'un article défini (le, la, les).
- sien sienne ....
 pronoms indéfinis :
- plusieurs maints chacun (l')un ....
 pronoms interrogatifs :
Ce sont ceux qui "interrogent l'identité supposée inconnue de leur référent" (Riegel, Pellat, Rioul). Le
contexte n'a pas besoin de contenir un point d'interrogation.
Exemples de pronoms :
- je/PRV:sg vous/PRV:pl le/PRV:sg conseille vivement
- viendrez - vous/PRV:pl ?
- asseyons - nous/PRV:pl
- les/PRO:pl voici/PREP qui arrivent !
- ils / PRV:pl en/PRV:++ viennent, et ils/PRV:pl en/PRV:++ veulent !
- toi/PRO:sg qui parles si bien, qui/PRO:sg es - tu/PRV:sg ?
- ça/PRO:sg ne vient pas de moi/PRO:sg
- celui/PRO:sg -ci, c'/PRV:sg est le mien/PRO:sg.
- ils/PRV:pl se/PRV:pl sont bien vendus.
- je/PRV:sg ne sais pas quoi/PRO:sg dire.
- Que/PRO:sg veux - tu/PRV:sg de moi/PRO:sg ?
- j'/PRV:sg en/PRO:++ vois plusieurs/PRO:pl, mais ne sais pas qui/PRO:sg viendra.
- il faudra s'/PRV:++ habituer.
13.-LES RELATIFS : REL
- Ce sont des pronoms qui introduisent une subordonnée relative, complète ou non, avec antécédent exprimé.
Ils se distinguent des Subordonnants en ce qu'ils ont toujours une fonction dans la Subordonnée qu'ils
introduisent.
Cette étiquette privilégie le rôle de "relateur" porté par l'élément.
Exemples :
- je le vois qui/REL vient.
- deux personnes attendaient, dont/REL moi.
- c'est lui qui/REL sera bien attrapé.
- j'ai vu ta fille, laquelle/REL fille a bien changé.
- A noter une grande possibilité d'erreurs d'étiquetage entre le Relatif et le Pronom interrogatif (pour "qui" et
"que") !
14.- LES SUBORDONNANTS : SUB et SUB$
16
14.1-La subordination est une relation assymétrique de dépendance entre une proposition dite "subordonnée" et
une proposition dite "principale". Les subordonnées sont le plus souvent introduites par des marqueurs de
subordination. Parmi ceux-ci, les conjonctions de subordination permettent d'introduire des subordonnées
complétives (c.o.d. ou c.o.i) ou circonstancielles, complètes ou incomplètes.
Ces conjonctions de subordination sont notées SUB, qu’elles soient .
 - Conjonctions "simples" :
Exemples :
- que lorsque quand comme ...
 - Locutions conjonctives :
Les locutions figées sont regroupées. Pour les semi-figées, chacun de leurs composants est étiqueté
séparément.
Exemples :
- parce_que/SUB,
- afin_que/SUB ,
mais
afin/PUL pour cette fois-ci, qu’/SUB il puisse ....
14.2 Cas particulier de "COMME":
Nous considérons que "comme" est ambigu Adverbe/Subordonnant uniquement.
Il est Adverbe exclamatif quand il introduit une phrase exclamative dans laquelle il y a une certaine valeur
d'intensité portant sur un des éléments du procès.
Partout ailleurs, il est Subordonnant, introduisant une subordonnée conjonctive complète ou tronquée.
Exemples :
- Comme/ADV il est intelligent !
- il est comme/SUB fou ...
- Comme prof, il est nul !
- il réagit comme/SUB moi.
- comme/SUB il arrivait, il se mit à pleuvoir.
14.3 Cas particulier de "QUE" :
"QUE" est très ambigu : au moins Relatif, Subordonnant, et Adverbe de différents types (exclamatif, restrictif).
Les critères de reconnaissance d'un "que" Relatif sont peu fiables : distance de l'antécédent, problème des "faux"
antécédents ("ce" + "que", par exemple, n'est pas une règle sûre, "que" pouvant introduire une relative ou une
complétive), et incertitudes diverses.
Les critères de reconnaissance du "que" Adverbe, sont, eux aussi, peu faciles à mettre en oeuvre avec une
grammaire telle que celle calculée par le catégoriseur d'E.BRILL.
C'est pourquoi nous avons été amenés à proposer et utiliser une variante du code SUB en SUB$ spécialement
pour "que".
SUB$ signifie "subordonnant possible", mais, en fait, c'est le code d'ambiguïté maximale pour "que".
Exemples :
- Que/PRO:sg veux -tu donc ?
"que" placé ainsi en tête de phrase et suivi d'un verbe conjugué est probablement un pronom interrogatif sûr.
mais
- je tiens à ce que/SUB$ tu viennes
- il refuse l'idée que/SUB$ tout va mal
- il ne fait souvent son travail que/SUB$ sous la contrainte.
- c'est lui que/SUB$ j'ai rencontré
- je veux, cette fois -ci, que/SUB$ tu y ailles
- lui, si beau et si gentil, et que/SUB$ j'aime tant
restent grandement indéterminés pour un catégoriseur tel que celui de Brill.
Donc "que", dans un environnement non certain, est codé SUB$ .
17
15.-LES SUBSTANTIFS : SBC:xx et SBP:xx
15.1 Ils sont répartis en SBC (= noms communs) et SBP (= noms propres et titres honorifiques, et tous mots à
majuscules).
15.2 Les SBC (= Noms communs) :
 Ce sont des mots SANS majuscules, qu'ils soient des noms communs ou des noms propres "démajusculisés".
Exemples :
- dans les bois/SBC:pl avec du bois/SBC:sg
- il se promène avec son molière /SBC:sg sous le bras
- il roule en voiture/SBC:sg
 Ce sont aussi certains mots AVEC majuscules, par exemple les noms de peuples et d'habitants, car "ils ont
toutes les caractéristiques syntaxiques et sémantiques des noms communs" (Riegel,Pellat, Rioul, page 177Rem.)
Ces noms de peuples et d'habitants sont présents au Lexique avec leur Majuscule et le code SBC:xx.
Exemples :
- un Mexicain/SBC:sg basané ......
 Sont aussi codés SBC les adjectifs substantivés.
Exemples :
- les gros/ADJ:pl biscuits/SBC:pl servaient à tremper la soupe, les petits/SBC:pl, croquants et légers,
étaient une vraie friandise.
15.3 Les SBP (= Noms propres) :
Dans FRANTEXT, ils sont repérés par la présence de l'astérisque à l'initiale (Tout au moins pour les textes saisis
jusque vers les années 1980).
Dès que l'on sort de ce corpus particulier, on se heurte aux problèmes posés par les Majuscules ( noms propres,
débuts de phrases, noms communs mis en relief, sigles et abréviations diverses).
Dans l'état actuel du catégoriseur, qui distingue les majuscules et les minuscules comme étant des caractères
différents, un certain nombre de mots ont au lexique une double entrée. Ainsi,
"le" et "Le", "en" et "En", "nous" et "Nous", etc.
Dans le cadre du pré-traitement des textes pour une mise aux normes BRILL, des programmes de prises en
compte des majuscules ont été proposés par Patrick Paroubek, puis par Nabil Hathout, ce qui évite d’alourdir le
Lexique avec trop de doubles-entrées.
Les noms propres sont étiquetés comme tels, actuellement, en fonction de trois critères :
 leur pré-édition au moyen de l'astérisque.
Exemple :
- *Mr/SBP:sg *Hennebeau/SBP:sg
 leur présence au lexique avec un code de "Nom propre"
Exemples:
- Amérique/SBP:sg
- Tokyo/SBP:sg
 leur passage par la grammaire des mots inconnus,qui affecte une étiquette de Nom propre à tout mot
inconnu débutant par une majuscule.
15.4- Problèmes divers:
15.4.1 les noms complexes :
 si la composition est marquée par la présence d'un trait d'union ou d'une apostrophe, le mot figure tel quel
au lexique. De plus, il se peut que le pré-traitement ait isolé le trait d’union entre deux blancs, puis recollé
les constituants au moyen du caractère « souligné ».
Exemple :
- pèse-lettre/SBC:sg
ou
pèse_-_lettre/ SBC:sg
18
 si la composition est libre (= sans ponctuation), chaque composant est étiqueté séparément ou bien
regroupé en un terme composé si sa fréquence d’apparition est suffisante et son comportement
suffisamment figé.
Exemples :
- gens de lettres --> gens/SBC:pl de/PREP lettres/SBC:pl
- à_cet_égard/ADV
15.4.2 les homonymies :
 à l'intérieur d'une même catégorie, ils sont indécelables.
Exemples :
- adresse/SBC:sg quel que soit le sens.
- livre/SBC:sg
quel que soit le genre
 avec des catégories morphosyntaxiques différentes, elles sont traitées selon le contexte immédiat.
Exemples :
- son/DTN:sg père ne l'/PRV:sg entendait pas ainsi !
- donne du son/SBC:sg à l'/DTN:sg âne.
15.4.3 Les ambiguïtés :
le système tente de les lever en contexte, selon l'environnement et selon les étiquettes présentes (et donc
possibles) au lexique pour ce mot. L'étiquetage est contraint par le lexique.
Exemples d'étiquetage correct :
- de vastes étendues/SBC:pl de terre crayeuse
- des nouvelles/SBC:pl intéressantes
- des tempêtes de rire/SBC:sg
16.- LES VERBES :
16.1 Une différenciation est faite, en ce qui concerne les verbes auxiliaires de temps et de voix, et les verbes
pleins.
Les verbes porteurs de modalités (« modaux ») ne sont pas distingués des autres et sont considérés comme verbes
pleins..
16.2 Le code, bien que "global" pour le système, peut être vu de façon analytique :
position 1:
A = verbe "avoir" (auxiliaire ou non)
E = verbe "être" (auxiliaire ou non)
V = tous les autres verbes.
positions 2 et 3 :
CJ = forme conjuguée
PAR= forme participe passé
NC = forme non conjuguée, avec
position 4 et 5 :
NT = gérondif ou p.présent
FF = infinitif
et, à droite du séparateur ":", le Nombre grammatical : sg ou pl
pos 1
A
E
V
A
E
V
pos2 et 3
CJ
PAR
pos 4et5
NC
FF
NT
19
Nbre gramm.
:sg
:pl
16.3 Les formes conjuguées :
La notation CJ neutralise totalement les indications de "temps", de "mode" et de "personne".
Exemples :
- ils retombaient/VCJ:pl
- elle l' aura/ACJ:sg voulu/VPAR:sg
- ils sont/ECJ:pl partis/ADJ1PAR:pl
16.4 Les formes non-conjuguées :
 - infinitifs
On notera NCFF les verbes non conjugués, au mode infinitif.
Exemple :
- sans vouloir/VNCFF aller/VNCFF le dénoncer/VNCFF
- sans avoir/ANCFF pu/VPAR:sg y aller/VNCFF
 - formes en -« ant »
On notera NCNT les éléments verbaux non conjugués terminés par "ant", qu'ils soient gérondifs (derrière
en/PREP) ou participes présents verbaux.
Exemples :
- il dicta des dépêches, télégraphiant/VNCNT de tous côtés
- ils restèrent muets , n' osant/VNCNT plus remuer .
- .. continua *Levaque en/PREP jetant/VNCNT un regard ..
- n' ayant/ANCNT aucune idée de tout cela
- n' ayant/ANCNT pas voulu cela
- étant/ENCNT concerné par ce problème ...
Rappel : les adjectifs qualificatifs en -ant ne sont pas étiquetés ANT mais ADJ.
Exemple :
- un bourdonnement d'abeilles, mouvant/ADJ:sg rideau ...
16.5- Les Participes Passés verbaux (voir aussi "PARTICIPES" au §7 supra)
On notera VPAR les participes passés contigus linéairement ou presque à une forme du verbe "avoir". Ce sont
les seuls qui sont considérés comme verbaux, derrière "avoir", auxiliaire de "temps".
(On notera ADJ1PAR les participes passés contigus ou presque à une forme du verbe "être". Ils sont
considérés comme plutôt "adjectivaux", passifs possibles ou non.
On notera ADJ2PAR tous les autres participes passés, en contextes nominaux, ou ambigus, ou bizarres,
ou trop éloignés de leur "auxiliaire".)
Exemples :
- ils avaient tous mis/VPAR:pl un terme à cette histoire.
- elle était accompagnée/ADJ1PAR:sg de Bouteloup
- nous nous étions tous levés/ADJ1PAR:pl
mais aussi :
- il resta surpris/ADJ2PAR:sg
- se trouvait exempté/ADJ2PAR:sg
- il dormait assis/ADJ2PAR:sg
- des enfants dépeignés/ADJ2PAR:pl
- sont restés/ADJ1PAR:pl enfermés/ADJ2PAR:pl
16.6- Les ambiguïtés existent avec d'autres catégories morpho-syntaxiques et sont résolues en contexe.
Exemples :
verbe conjugué/ adjectif : plaisante, continue, ...
verbe conjugué/ substantif : manque, tâche, filons, ...
verbe conjugué/ participe passé : assombris, grandis
infinitif/ substantif : lever, dîner, rire, boucher
etc.
20
17.-LE RÉSIDU : ABR, FGW, SYM
Le résidu concerne des mots que nous avons éprouvé quelque difficulté à classer dans ces catégories. Nous avons
essayé de créer des étiquettes supplémentaires, telles que pour
 -LES ABRÉVIATIONS : ABR
Exemples :
p. pp. chap.
 -LES MOTS ÉTRANGERS : FGW
Exemples :
quarto, rauchen, book
 -LES SYMBOLES : SYM
Exemples :
º $ % + x
Mais, pour le moment, ces étiquettes sont très peu productives, et génèrent finalement plus d'inconvénients que
d'avantages dans la cohérence de la codification. Elles ne sont pas prises en compte par des règles, mais sont
seulement présentes pour caractériser des occurrences au lexique.
CONCLUSION :
Nous avons là un ensemble d'étiquettes relativement restreint qui rend compte des grandes classes grammaticales
ayant en contexte un comportement spécifique.
Trop entrer dans les détails de sous-spécification amoindrirait la performance du système : il ne faut pas perdre
de vue que c'est un système probabiliste, et qu'il apprend lui-même les règles de codage. Trop de surspécification ou de sous-spécification reviendrait à la limite, à avoir autant de cas particuliers que d'occurrences,
d'où une impossibilité à retrouver les régularités attendues.
21
Chapitre 4
Ré-Apprentissages pour Brill14-JL5 / WINBRILL-0.3
1. GÉNÉRALITÉS
Nous ne reviendrons pas ici sur la description de la version BRILL-1.14 et son expérimentation pour l’anglais.
Chaque personne intéressée peut se procurer cette version librement par « ftp-anonyme », et l’utiliser moyennant
le respect du Copyright d’Eric BRILL. Il suffit ensuite de se référer aux différents fichiers README d’Eric
BRILL pour avoir la marche à suivre. Nous parlons ci-dessous du ré-apprentissage pour le français à l’INaLF.
A partir d’un fichier échantillon manuellement étiqueté, le système crée sa Base de Connaissances. Parmi les
fichiers créés, quatre serviront de paramètres dans la commande d’étiquetage. Ce sont :
1.1 Le LEXIQUE : il contient une liste de mots (une entrée par ligne), chacun de ces mots associé à une liste de
codes.
Les codes peuvent contenir n’importe quel caractère sauf l’espace, ce dernier servant de séparateur.
Le premier de ces codes est « le plus probable ». Ceux qui suivent sont des codes « qui ont été rencontrés », et ils
figurent là dans le désordre. Donc, seule la place du premier est pertinente.. En regardant les programmes d’un
peu plus près, il semble que la taille maximale du Lexique soit limitée à 100000, la taille du mot à 100, et la taille
maximale d’une étiquette à 20.
Exemples du Lexique français :
réduit
bon_gré_,_mal_gré
répondant
actives
indiquent
cette_fois_-_ci
énonça
*Catherine
VCJ:sg SBC:sg ADJ1PAR:sg VPAR:sg ADJ2PAR:sg
ADV
VNCNT SBC:sg
ADJ:pl
VCJ:pl
ADV
VCJ:sg
SBP:sg
1.2 Le fichier des RÈGLES LEXICALES : il contient une liste de règles spécifiant les transformations à
effectuer sur la catégorie grammaticale affectée par défaut aux mots inconnus.
Exemples de règles lexicales :
SBC:pl nous fgoodright VCJ:pl 154.4
avait goodright VPAR:sg 137.659127089446
SBC:pl ais fhassuf 3 VCJ:sg 122.65
SBC:pl és fhassuf 2 ADJ2PAR:pl 119.604761904762
SBC:sg ai fhassuf 2 VCJ:sg 114
SBC:sg e fdeletesuf 1 ADJ:sg 111.458706750157
du goodright SBC:sg 106.678005154052
ées hassuf 3 ADJ2PAR:pl 103.088888888889
SBC:sg ir fhassuf 2 VNCFF 99.5673307005528
NN é fchar ADJ2PAR:sg 90.6047619047619
Nous y reviendrons plus loin.
Les Règles lexicales sont appelées pour chaque mot inconnu, dans l’ordre de leur présentation, qui n’est pas
arbitraire : le système les a rangées en fonction de leur score. Plusieurs peuvent s’appliquer successivement sur
les résultats des transformations précédentes. Si le mot inconnu est peu fréquent et n’est pas pris en compte par
une ou plusieurs des règles de ce fichier, alors il garde son étiquette par défaut.
22
1.3 Le fichier des RÈGLES CONTEXTUELLES : il contient les modèles de transformations contextuels qui
vont servir à affiner l’étiquetage en contexte.
Ces règles prennent en compte les catégories affectées aux mots du texte, telles qu’elles sont au moment de
l’appel de la règle ; et dans une fenêtre de taille maximale égale à 6. Il s’agit donc d’un travail en contexte
« local » assez réduit. Dans cette fenêtre, les éléments pris en compte peuvent être, soit des étiquettes Parties du
Discours, soit des mots.
Exemples de règles contextuelles :
DTN:sg PRV:sg NEXTTAG VCJ:sg
PRV:sg PRV:pl NEXT1OR2TAG VCJ:pl
ADJ2PAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
SBC:sg ADJ:sg PREVTAG SBC:sg
PRV:sg PRO:sg WDPREVTAG PREP elle
VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
DTN:sg PRO:sg NEXTTAG REL
SBC:sg VCJ:sg PREV1OR2TAG PRV:sg
ADJ2PAR:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg
SUB$ SUB WDPREVTAG PREP que
Nous y reviendrons plus loin.
1.4 Le fichier de BIGRAMMES (= paires de mots adjacents) est un fichier qui intervient dans le traitement des
mots inconnus. Il contient la liste de toutes les paires de mots repérées dans le corpus à étiqueter. Il peut être
augmenté suivant les besoins, au fur et à mesure que du texte brut non codé est disponible.
Exemples d’entrées du fichier Bigrammes :
presque bleu
résultait qu'
constaté que
bêtes s'
aux souris
au 30
cela nous
2. APPRENTISSAGE à l’INaLF
Nous parlons ici du ré-apprentissage pour le français à l’INaLF, que nous avons effectué en suivant le mode
d’emploi figurant dans ces fichiers README.
Nous ne sommes pas intervenus dans les programmes écrits par E.BRILL, même pas pour changer les étiquettes
prévues « par défaut » : NN (nom commun singulier) et NNP (nom propre singulier). Il arrive que ces étiquettes
apparaissent dans les résultats d’étiquetage, lorsque le système n’a pas réussi à trouver dans « sa » Base-de
Connaissances les règles adéquates pour traiter les unités correspondantes. L’utilisateur qui souhaite changer ces
étiquettes peut le faire en se référant au « README.TRAINING » d’Eric Brill, et en gérant un nouvel
apprentissage des règles.
Nous avons, de plus, une difficulté, non encore résolue, à faire tourner la troisième phase de l’étiquetage, appelée
N-BEST.
2.1.Rôle de l’humain :
L’informaticien a eu pour rôle de rapatrier la version Unix par « ftp-anonyme » Les problèmes d’installation ont
été relativement réduits. Le « portage » vers Windows95 a demandé beaucoup plus de temps et d’énergie.
Le linguiste a eu pour rôle de créer et/ou faire créer par le système les différents fichiers paramètres nécessaires. :
Les fichiers README de BRILL étaient heureusement très clairs et très explicites. Le recours à l’informaticien,
pour expliquer certains phénomènes ou impossibilités pendant l’apprentissage a été assez minime.
23
Les deux principales tâches du linguiste ont été les suivantes : Mettre au point le jeu d’étiquettes, et étiqueter
manuellement le corpus-échantillon à parti duquel le système allait créer sa Base de Connaissances.
2.1.1. Le jeu d’étiquettes : Pour la dernière version distribuée (BRILL14-JL5 / WinBrill-0.3), le jeu d’étiquettes
est celui décrit dans les pages précédentes. (chapitre 2 et chapitre3)
Ce jeu d’étiquettes a subi plusieurs modifications avant d’arriver à son état actuel. Chaque modification a
impliqué une révision totale du corpus-échantillon. Ce dernier a lui-même évolué en taille, au fil du temps.
2.1.2. Le corpus-échantillon qui a été utilisé contient 417370 occurrences et a les caractéristiques suivantes :
C’est un fichier non distribuable, car il contient des morceaux de textes sous droits d’auteurs ou d’éditeurs, tirés
des bases Frantext, Scitech ou autres :
Balzac, Honoré.de
Lhote, Jean
Romilly, Jacqueline de
Victor, Paul-Emile
César Birotteau
La Communale
La Montagne Sainte-Victoire
Boréal
3008 occurrences
3010 occurrences
3005 occurrences
3005 occurrences
Zola, Emile
Leroux, Gaston
Gyp
Dumas, Alexandre
Sue, Eugène
Foch, Maréchal
Brillat-Savarin
Karr, Alphonse
Constant, Benjamin
Sainte-Beuve
Flaubert, Gustave
Janin, J.
Broussais
Germinal, 1°partie (Frantext, L465)
Le Mystère de la Chambre Jaune (Frantext, L782)
Souvenirs d’une Petite Fille (Frantext L269)
La Dame aux Camélias (Frantext L834)
Atar-Gull (Frantext, M279)
Mémoires (Frantext L243)
Physiologie du goût (Frantext M362)
Sous les Tilleuls (Frantext M384)
Le Cahier Rouge (Frantext M386)
Volupté (Frantext M652)
Smarh (Frantext M736)
Ane mort et Femme guillotinée (Frantext M784)
Cours de Phrénologie (Frantext P938)
Pelt, Jean-Marie
Tour du Monde d’un écologiste (Scitech,T017)
Purves ; Orian ; Heller Biologie Animale (Scitech T022)
Jouventin, Pierre
nouv. science biol. : l’écologie ..(Scitech T025)
ainsi qu’un fichier de définitions géologiques (systèmes d’érosion)
115004 occurrences
55897 occurrences
54099 occurrences
78711 occurrences
4781 occurrences
4822 occurrences
4431 occurrences
4692 occurrences
4325 occurrences
4404 occurrences
4534 occurrences
4479 occurrences
4336 occurrences
16313 occurrences
36120 occurrences
6197 occurrences
2445 occurrences
Ces textes ont été mis aux normes BRILL minimales, c’est-à-dire les ponctuations décollées, et une phrase par
ligne.
A chacun des mots de ces textes une étiquette de Partie du Discours a été associée, en contexte, selon les critères
définis précédemment au chapitre 3.
2.2) Rôle de l’outil informatique :
A partir du corpus-échantillon, le système crée sa propre « Base de Connaissance », sous la forme d’un certain
nombre de fichiers, qui sont différentes types de listes (associations de mots, de mots + étiquettes, mots +
étiquettes + fréquences). Il suffit à l’humain de lancer les commandes adéquates qui sont indiquées dans les
fichiers README d’E.BRILL.
L’apprentissage se fait en deux phases :
2.2.1-Première phase : Apprentissage des Règles pour prédire le code le plus probable pour les mots
inconnus
24
Ce module d’apprentissage utilise la première moitié du corpus manuellement codé, ainsi que tout le texte non
codé disponible (Le texte non codé devra inclure la totalité du corpus manuellement étiqueté (les deux moitiés)
dont on aura ôté les codes).
Appelons TGDref-entier le corpus échantillon manuellement étiqueté
Sont créés les fichiers suivants :
UNTGDref-entier :
son correspondant non-étiqueté
TGD1 :
la première moitié du corpus échantillon étiqueté
TGD2 :
la seconde moitié du corpus échantillon étiqueté
BIGWORDLIST :
la liste de tous les mots apparaissant dans UNTGDref-entier
BIGRAMLIST :
la liste de toutes les paires de mots apparaissant dans UNTGDrefentier
SMALLWDTGDLIST
la liste des associations [mot code fréquence], donnant le nombre de
fois qu’un mot apparaît avec un même code dans le corpus TGD1.
Une fois ces fichiers créés, on peut lancer la commande d’apprentissage des règles, qui est de la forme :
unknown-lexical-learn.prl BIGWORDLIST SMALLWDTGDLIST BIGRAMLIST 300 LEXRULEFILE
dans laquelle BIGWORDLIST SMALLWDTGDLIST BIGRAMLIST sont les fichiers créés ci-dessus, et
LEXRULEFILE le nom du fichier où viendront se ranger les règles apprises. Le nombre 300 est destiné à
améliorer l’efficacité, signifiant au système de n’utiliser le contexte fourni par les bigrammes que lorsque l’un des
deux mots fait partie des 300 mots les plus fréquents.
Voici un extrait du fichier LEXRULEFILE obtenu :
NN é fchar ADJ2PAR:sg 90.6047619047619
1 char CAR 80.3619047619048
des goodright SBC:pl 78.3901889207833
SBC:sg est fgoodright ADJ:sg 71.3203621248091
SBC:pl plus fgoodright ADJ:pl 68.7188259158072
NN t fchar VCJ:sg 63.0384615384615
une goodright SBC:sg 59.1383656752863
Les entiers réels qui apparaissent dans le dernier champ de la règle sont les scores obtenus pour cette règle.
Les opérateurs utilisés sont les suivants :
deletepref / deletesuf
addpref / addsuf
haspref / hassuf
goodleft / goodright
char
fdeletepref /fdeletesuf
faddpref /faddsuf
fhaspref /fhassuf
fgoodleft / fgoodright
fchar
Ce sont principalement des opérateurs qui peuvent atteindre une partie du mot considéré, le préfixe (haspref,
fhaspref ; deletepref, fdeletepref ; addpref, faddpref)ou le suffixe (hassuf, fhassuf ; deletesuf, fdeletesuf ; addsuf,
faddsuf) ou un caractère à l’intérieur du mot (char, fchar), ainsi que des opérateurs permettant d’atteindre le mot
immédiatement contigu linéairement, sur la gauche (goodleft, fgoodleft) ou sur la droite (goodright , fgoodright)
Les règles comportant « f » sont plus restrictives : Elles s’appliquent seulement s’il y a, en plus, concordance
d’étiquette sur le mot considéré, alors que sans le « f » elles s’appliquent quelle que soit l’étiquette. Pour
différencier « goodright » et « fgoodright », on pourrait dire que le premier réfère à une position par rapport à un
mot, quel que soit l’objet qui se trouve dans cette position ; alors que le second ajoute une contrainte
supplémentaire en spécifiant, en plus de la position, une étiquette que doit avoir l’objet à la position concernée.
Exemples :
goodright / goodleft
permet d’atteindre le mot immédiatement à droite ou à gauche.
Ex. :
une goodright SBC:sg 59.1383656752863
signifie : Tout mot contigu linéairement à une, sur sa droite, est à étiqueter SBC :sg
25
fgoodright /fgoodleft
permet aussi d’atteindre le mot immédiatement à droite ou à gauche,
mais en posant une condition sur l’étiquette du mot en cours d’examen.
Ex. :
SBC:sg est fgoodright ADJ:sg 71.3203621248091
signifie : Tout mot inconnu venant d’être étiqueté comme Substantif va voir son étiquette
remise en question s’il est à la droite du mot est. Dans ce cas, il devient Adjectif ( SBC :sg
=> ADJ :sg)
2.2.2-Deuxième phase : Apprentissage des Modèles de transformations contextuelles
Une fois les règles Lexicales obtenues, il reste à créer un certain nombre d’autres fichiers :
TRAINING.LEXICON
le lexique d’entraînement, à partir de tous les textes étiquetés en notre
possession, sauf TGD2, car cette portion de texte est réservée à l’apprentissage des règles contextuelles.
FINAL.LEXICON
le lexique final, qui sera à utiliser dans la commande d’étiquetage. Il
est établi à partir de TGDref-entier
UNTGD2
la seconde moité du corpus échantillon, dont on a ôté les étiquettes.
DUMMY-TGD2
il s’agit d’un fichier de travail, fait sur UNTGD2 en utilisant le résultat
de la première phase de l’apprentissage (Start State Tagger). Le résultat est un fichier étiqueté par
comparaison avec le lexique et utilisation des règles lexicales. Le système va apprendre les règles
contextuelles en comparant ce fichier DUMMY-TGD2 et le fichier TGD2 étiqueté manuellement.
Ensuite, on lance la commande d’apprentissage des règles contextuelles, qui a la forme :
contextual-rule-learn TGD2 DUMMY-TGD2 CTXRULEFILE TRAINING.LEXICON
dans laquelle CTXRULEFILE est le nom du fichier où viendront se ranger les modèles de transformations appris
par le système.
Voici des exemples de la grammaire obtenue :
DTN:sg PRO:sg NEXTTAG SUB$
DTN:sg PRV:sg NEXT1OR2TAG VNCFF
ADJ2PAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
SBC:sg ADJ:sg PREVTAG SBC:sg
DTN:pl PRV:pl LBIGRAM à les
ADJ:sg PRO:sg WDAND2AFT autre STAART
PRV:sg PRO:sg WDAND2BFR STAART moi
PREP DTN:pl WDAND2TAGAFT De SBC:pl
Il n’apparaît plus d’entiers réels indiquant le score obtenu, mais les règles sont toujours rangées en fonction du
score obtenu (Les scores sont visibles à l’écran lorsqu’on suit l’apprentissage).
Les différents opérateurs utilisés dans cette grammaire sont les suivants :
PREVTAG / NEXTAG
PREV1OR2TAG / NEXT1OR2TAG
PREV1OR2OR3TAG
PREVBIGRAM / NEXTBIGRAM
SURROUNDTAG
PREVWD /NEXTWD
PREV2WD / NEXT2WD
PREV1OR2WD / NEXT1OR2WD
RBIGRAM / LBIGRAM
CURWD
WDPREVTAG / WDNEXTTAG
WDAND2BFR/ WDAND2AFT
WDAND2TAGBFR / WDAND2TAGAFT
26
Certains de ces opérateurs opèrent sur des étiquettes, prises dans leur globalité (non atteignables position par
position), d’autres sur des mots, d’autres sont mixtes.
Par exemple :
PREVTAG , NEXTTAG
font appel à l’étiquette précédente ou suivante)
DTN:pl PRO:pl NEXTTAG VCJ:pl
PREV1OR2OR3TAG
interroge sur l’une des trois étiquettes précédentes
ADJ:pl ADJ1PAR:pl PREV1OR2OR3TAG ECJ:pl
PREV2WD
interroge sur l’un des deux mots précédents
SBC:sg VCJ:sg PREV1OR2WD n'
PREVBIGRAM
considère la paire de codes formée par les étiquettes des deux mots
précédents.
SBC:sg VCJ:sg PREVBIGRAM DTN:sg SBC:sg
LBIGRAM
considère la paire de mots formée par le mot en question et le mot
précédent
DTN:sg PRV:sg LBIGRAM de le
CURWD
considère le mot courant.
SBC:sg ADV CURWD si
SURROUNDTAG
considère les deux étiquettes entourant l’étiquette en cours
d’évaluation.
ECJ:sg SBC:sg SURROUNDTAG DTN:sg PREP
WDNEXTTAG
considère le mot et l’étiquette suivante (MOTen cours et TAG suivant
PRO:sg SUB$ WDNEXTTAG Qu' PRV:sg
WDAND2AFT
considère le mot en cours d’examen et le deuxième mot suivant ADJ:sg PRO:sg WDAND2AFT autre STAART
WDAND2TAGBFR
considère le mot en cours et la deuxième étiquette précédente
ACJ:pl SBC:pl WDAND2TAGBFR PREP avions
WDAND2TAGAFT
considère le mot en cours et la deuxième étiquette suivante
PREP DTN:pl WDAND2TAGAFT De SBC:pl
[Le mot en cours d’examen est De. Son étiquette PREP est à transformer en DTN :pl
(article pluriel) si le deuxième mot sur sa droite est étiqueté SBC :pl (Substantif pluriel)].
Une fois ce fichier de règles contextuelles fourni par le système, le système a tout ce qu’il lui faut pour
projeter sur un nouveau texte, les connaissances acquises sur le corpus échantillon manuellement étiqueté.
NOTE :
Une troisième phase, le mode N-BEST est théoriquement prévue :
Le code pour l’apprentissage et l’étiquetage dans le mode n-best est fourni avec cette version BRILL-1.14,
comme elle l’était déjà dans la version 1.10., mais toujours en « pré-version ». Nous n’avons pas pu la tester.
27
Chapitre 5
BRILL14-JL5 : Mode d’emploi à l’INaLF
1. APPEL DU TEXTE
1.1 Un texte FRANTEXT ne peut être appelé que sous Unix, par la procédure Desbas
Il est impossible d’appeler directement un texte Frantext sur le PC Windows95.
Donc, on l’appelle sous Unix, puis on doit le transférer après les pré-traitements, par Ftp.
1.2 Tout autre texte peut être saisi et /ou ouvert sous Windows95. Mais les pré-traitements ne se font que sous
Unix. Donc il y a intérêt à passer par la phase Unix avant de transférer par Ftp
2. PRÉ-TRAITEMENT DU TEXTE
Il s’agit de la mise aux normes préconisée par E.Brill lui même dans ses fichiers « Readme »
Il ne faut pas perdre de vue que ces pré-traitements modifient le format initial du texte: On perd les paragraphes,
lignes blanches, et retraits divers. On perd les notions d’ « italique » ou de « gras ». On perd les balises textuelles,
et on risque de perdre de vue un certain nombre d’unités complexes telles que enseignes de restaurants, titres de
films ou de journaux, noms de compagnies théâtrales. C’est pourquoi nous ne pensons pas à un pré-traitement
universel global, valable pour tous dans tous les cas, et figé dans une boîte noire. Différents utilisateurs nous ont
dit préférer faire eux-mêmes ce pré-traitement en fonction de leurs besoins spécifiques.
Pour nous , à l’INaLF, des programmes de pré-traitement ont été écrits par Nabil Hathout, et voici comment nous
faisons ces pré-traitements :
2.1 : Vérification que le texte est en iso.
Ceci implique que tous les textes Frantext, en ibm850 doivent passer par la procédure « recode ibm850 :latin1 »
2.2 : Décollement des ponctuations et/ou prise en compte d’éventuelles balises textuelles.
Pour les textes Frantext, ceci veut dire passage par un traitement spécifique avec un programme « frantext.sh ».
Pour les textes de la base Scitech, nous utilisons un autre programme spécifique « scitech.sh » etc...
Pour les autres textes, nous prenons en compte seulement les ponctuations. ...
Dans tous les cas, une relecture manuelle est nécessaire pour traiter certains oublis des programmes.
2.3 :Prise en compte des mots composés :
A l’INaLF, nous avons décidé de tenir compte des mots composés figés ou de certaines associations de termes
fréquentes. Un pré-traitement est donc nécessaire pour les reconnaître en contexte. Il est fondé sur la consultation
d’un lexique spécifique où sont recensées ces expressions.
Le programme reconnaît ces expressions, et modifie le texte en conséquence : les différents constituants de ces
expressions sont reliés par le caractère « souligné ». Toutes ces expressions ont été ajoutées, sous cette forme, au
lexique final utilisé ultérieurement dans la commande d’étiquetage. Le lexique de termes composés contient un
peu plus de 21000 entrées.
2.4 : Prise en compte de Majuscules :
Le catégoriseur de BRILL est sensible aux majuscules / minuscules. Si l’on ne veut pas systématiquement
doubler ou tripler le lexique pour tenir compte de cette particularité, il faut un pré-traitement : En effet, pour le
système, les mots tout, Tout, TOUT, sont trois mots différents.
Deux programmes sont prévus pour, soit « démajusculiser » seulement la majuscule de début de phrase, soit
pour traiter toutes les majuscules à l’initiale d’un mot dans un texte. Reste encore à compléter par une possible
« démajusculisation » des mots écrits totalement en capitales, dans les titres par exemple.
28
Si l’on ne passe pas par ces programmes, le système, par défaut, assignera au mieux une étiquette de nom propre
(SBP:sg) à tous les mots à majuscules, au pire le fera passer par le traitement des mots inconnus ce qui amènera
des étiquettes risquant fort d’être aberrantes.
Ce pré-traitement concernant les majuscules, implique une modification du texte d’origine. Mais cette
modification peut être annulée après l’étiquetage, en utilisant un post-traitement inverse
3. ÉTIQUETAGE
3.1. GENERALITES
3.1.1. Lorsqu’on lance la commande d’étiquetage sur un texte à étiqueter, le système commence par lire le texte.
Par comparaison avec le lexique, il affecte à chaque mot son code le plus probable. Pour les mots inconnus, il
affecte une des deux étiquetes « par défaut » prévues par programme : NNP si lemot commence par une
majuscule, et NN dans tous les autres cas.
Cette affectation du code par défaut déclenche l’appel des Règles Lexicales destinées à affiner l’étiquetage des
mots inconnus.
Pour chaque mot inconnu (resté NN ou NNP),chacune des règles lexicales est essayée, appliquée si les conditions
sont remplies. Toutes sont essayées, successivement, et prennent en compte le résultat précédemment acquis. Si
le fichier contient 301 règles, chaque mot inconnu se verra essayer les 301 règles.
A la fin de cette étape, il peut rester des codes par défaut, car il se peut que le système, dans son apprentissage
sur le corpus échantillon, n’ait pas rencontré un tel contexte, et n’ait donc pas pu déduire de règle de levée
d’ambiguïté.
3.1.2. Le système revient sur l’étiquetage précédemment effectué, et applique systématiquement des modèles de
transformations contextuels, dans le but d’affiner l’étiquetage.
Ces règles ne doivent pas être confondues avec des règles de « parsage ». Elles prennent en compte les catégories
affectées aux mots du texte, telles qu’elles sont au moment de l’appel de la règle ; et dans un contexte « local »
assez réduit.
Dans ce fichier, les règles sont rangées par scores décroissants et chaque règle est appelée pour chaque mot.
Lorsque l’étiquetage est terminé, le texte a la forme suivante :
La/DTN:sg pédagogie/SBC:sg est/ECJ:sg une/DTN:sg oeuvre/SBC:sg de/PREP coordination/SBC:sg
et/COO de/PREP rapports/SBC:pl ;/;
ne/ADV doit/VCJ:sg -/- elle/PRV:sg pas/ADV être/ENCFF considérée/ADJ1PAR:sg comme/SUB
une/DTN:sg sorte/SBC:sg de/PREP philosophie/SBC:sg embrassant/VNCNT dans/PREP une/DTN:sg
vue/SBC:sg d'/PREP ensemble/SBC:sg ce/PRO:sg qui/REL contribue/VCJ:sg à/PREP la/DTN:sg
formation/SBC:sg de/PREP l'/DTN:sg esprit/SBC:sg ?/?
La/DTN:sg géographie/SBC:sg est/ECJ:sg tenue/ADJ1PAR:sg de/PREP puiser/VNCFF aux/DTC:pl
mêmes/ADJ:pl sources/SBC:pl de/PREP faits/ADJ2PAR:pl que/SUB$ la/DTN:sg géologie/SBC:sg ,/,
la/DTN:sg physique/SBC:sg ,/, les/DTN:pl sciences/SBC:pl naturelles/ADJ:pl et/COO ,/, à/PREP
certains/DTN:pl égards/SBC:pl ,/, les/DTN:pl sciences/SBC:pl sociologiques/ADJ:pl ./.
Elle/PRV:sg se/PRV:sg sert/VCJ:sg de/PREP notions/SBC:pl dont/REL quelques_-_unes/PRO:pl
sont/ECJ:pl l'/DTN:sg objet/SBC:sg d'/PREP études/SBC:pl approfondies/ADJ2PAR:pl dans/PREP
des/DTN:pl sciences/SBC:pl voisines/ADJ:pl ./.
De/PREP là/ADV vient/VCJ:sg ,/, pour/PREP le/PRV:sg dire/VNCFF en/PREP passant/VNCNT ,/,
le/DTN:sg reproche/SBC:sg qui/REL lui/PRV:sg est/ECJ:sg parfois/ADV adressé/ADJ1PAR:sg
de/PREP vivre/VNCFF d'/PREP emprunts/SBC:pl ,/, d'/PREP intervenir/VNCFF indiscrètement/ADV
dans/PREP le/DTN:sg champ/SBC:sg d'/PREP autrui/PRO:sg ,/, comme/SUB s'/SUB il/PRV:sg
y/PRV:++ avait/ACJ:sg des/DTN:pl compartiments/SBC:pl réservés/ADJ2PAR:pl dans/PREP
le/DTN:sg domaine/SBC:sg de/PREP la/DTN:sg science/SBC:sg ./.
3.2. MODALITÉS INaLF
29
3.2.1 :L’étiquetage peut se faire sous UNIX ou sous Windows95, une fois que les fichiers y ont été transférés.
3.2.1.1 : Etiquetage sous UNIX
La commande d’étiquetage utilise en tant que paramètres, quatre des fichiers qu’il a pu apprendre lui-même, sous
UNIX, à partir du fichier échantillon manuellement codé à l’aide des Parties de Discours retenues pour ce projet.
Ces fichiers peuvent être utilisés tels quels, ou bien revus par l’humain et « améliorés » au regard des résultats
d’étiquetage obtenus sur différents textes.
C’est ce qui se passe pour l’utilisation qui en est faite à l’INaLF :
Les fichiers de règles ont été chacun retouchés et augmentés, et le lexique appris par le système remplacé par un
autre, de taille beaucoup plus importante.
L’étiquetage peut être suivi du post-traitement concernant les majuscules / minuscules
3.2.1.2 : Etiquetage sous Windows95
La commande d’étiquetage utilise en tant que paramètres, quatre des fichiers qu’il a pu apprendre lui-même, sous
UNIX puis transférés, ou directement sous Windows95 (il reste juste un problème à régler pour le fichier de
règles contextuelles, non appris sous Windows pour le moment)
En fait, l’apprentissage sous Windows n’étant pas « complet », nous avons importé les fichiers UNIX par Ftp.
L’étiquetage se fait avec WinBrill-0.3.
Cet étiquetage WinBrill-0.3 peut être suivi de lemmatisation.
3.2.2 : Les
quatre fichiers-paramètres actuellement utilisés sont les suivants :
3.2.2.1 :La liste de « Bigrammes » apprises par le système.
Exemples :
enfants incapables
âgée que
armée avait
de race
pige à
comme tant
3.2.2.2 :La liste de « Règles Lexicales », apprises par le système, puis revue et augmentée. (actuellement :342
règles )
Exemples : les 13 premières règles du fichier :
e char SBC:sg 2904.47563601746
s hassuf 1 SBC:pl 1886.94262577434
it hassuf 2 VCJ:sg 983.930470192473
nt hassuf 2 VCJ:pl 687.710506160506
er hassuf 2 VNCFF 674.779828095881
NN i fchar SBC:sg 610.543031204011
* char SBP:sg 598
a hassuf 1 VCJ:sg 459
VCJ:pl ant fhassuf 3 VNCNT 414.52742248062
ment hassuf 4 ADV 323
un goodright SBC:sg 316.84875643057
je goodright VCJ:sg 313.386615439306
SBC:sg ez fhassuf 2 VCJ:pl 259
3.2.2.3 :La liste de « Règles Contextuelles », apprise par le système, puis revue et augmentée. (Actuellement :
654 règles)
Exemples de règles :
PRV:++ PREP WDNEXTTAG en ADJ:sg
SBC:pl ADJ:pl PREV1OR2TAG SBC:pl
PRO:sg PRV:sg PREVTAG DTN:sg PRV:sg NEXTTAG ACJ:sg
PRV:sg PRO:sg WDPREVTAG PREP elle
VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg
30
DTN:pl PRV:pl LBIGRAM à les
SUB$ SUB PREVTAG PREP
VCJ:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg
ADJ:sg SBC:sg SURROUNDTAG DTN:sg PREP
3.2.2.4 :Le « Lexique » utilisé est un lexique « maison », fondé au tout début sur le lexique INaLF/TLFnome95,
puis profondément remanié et augmenté en fonction des besoins spécifiques du catégoriseur et des textes à
étiqueter. Il contient actuellement 440544 entrées,alors que le lexique appris par le système en contenait un peu
plus de 25000. En effet, le lexique « auto-appris » par le système a vite montré ses limites dès que nous avons
tenté d’utiliser le catégoriseur sur d’autres types de corpus. D’autre part, le Lexique INaLF TLFnome95 est très
centré sur la base de textes littéraires FRANTEXT. Le Lexique actuel est un compromis entre la richesse de la
Langue quant au nombre des entrées y figurant (simples ou composées) et les possibilités du logiciel à les
prendre en compte. Il est constamment en train d’évoluer en fonction des corpus traités et des outils de prétraitement des textes que l’INaLF est en train de mettre au point.
Chaque « entrée » du lexique contient l’occurrence telle qu’en contexte, dans sa forme fléchie et/ou accordée, et
la description lexicale qui lui est associée.
Cette description lexicale peut être une seule étiquette non ambiguë, ou une suite d’étiquettes. Dans ce cas, le
système donne priorité à la première dans son travail de catégorisation. En effet, elle est censée être la plus
fréquente.
Mais attention : le lexique ne donne pas toutes les étiquette possibles pour un mot donné. Le lexique Brill « autoappris » ne recense que les emplois effectivement rencontrés en contexte. Le lexique actuellement utilisé a gardé
un peu cette philosophie en ce sens que nous avons choisi de réduire les ambiguïtés. Par exemple, le mot rocher
est théoriquement possible comme verbe infinitif. Poser cette ambiguité n’est absolument pas rentable : en terme
de performances du système, il vaut mieux avoir une erreur les rares fois où il est effectivement verbe, que des
erreurs fréquentes chaque fois qu’il est substantif.
Pour tenir compte des différentes graphies possibles pour un même mot, il contient des entrées de la forme :
quartèrent VCJ:pl
quarté SBC:sg ADJ2PAR:sg VPAR:sg
quartée ADJ2PAR:sg
quartées ADJ2PAR:pl
quartés SBC:pl ADJ2PAR:pl
quasar SBC:sg
quasars SBC:pl
quasi ADV SBC:sg
quasi-asphyxiques ADJ:pl
quasi-certitude SBC:sg
quasi_-_asphyxiques ADJ:pl
quasi_-_certitude SBC:sg
à_grand'_peine ADV
à_grand'peine ADV
à_grand-peine ADV
à_grand_-_peine ADV
4. LES POST-TRAITEMENTS
4.1. Le toilettage du
texte
Sous Unix :
Il s’agit essentiellement du toilettage majuscules/minuscules avec restitution du format initial du texte en ce qui
concerne cette question
Sous Windows95 :
On ne peut restituer sous Windows quelque chose qui a été modifié sous UNIX. Si, sous UNIX on a pré-traité les
majuscules/minuscules, on ne peut pas opérer de restitution du format initial.
31
4.2. Le lemmatiseur FLEMM
Il existe un « plus » sous Windows95 : le catégoriseur WinBrill-0.3 a été couplé avec le lemmatiseur FLEMM de
Fiammetta Namer. Ce lemmatiseur opère à partir des résultats obtenus par WinBrill-0.3.
32
Index
Abréviation
Adjectif
Adverbe
adverbialisé
ambiguïtés
article
avoir
beaucoup
Cardinaux
chiffres
comme
comparatif
conjonction
conjugué
contractés
Coordonnant
de
déictiques
démonstratifs
des
Déterminants
du
Etrangers (mots)
être
gérondif
homonymie
indéfini
infinitif
Interjection
interrogatifs
l’on
modaux
négation
nom
nom complexe
nom commun
nom propre
numéraux
onomatopée
ordinaux
Participes passés
participes présents
Particules
partitifs
personnels
peu
Ponctuations
possessif
prédéterminants
Préfixes
Prépositions
voir §17
voir §1
voir §2 Adjectifs (§1.7
voir Adjectif (§1.6)
voir Adjectifs (§1.8) Adverbes (§
Substantifs (§15.4.3) .. Verbes (§16.6
voir Déterminants (§5)
voir Verbes (§16.1, 16.2)
voir Adverbes (§2.5)
voir §3
voir Cardinaux (§3)
voir Subordonnants (§14.3)
voir Adjectifs (§1.3), Adverbes (§2.3)
voir Coordonnants (§4), Subordonnants (§14)
voir Verbe (§16)
voir Adjectifs (§1.5, Déterminants (§5)
voir §4
voir Déterminants (§5.4)
voir Adverbes (§2.4), Prépositions (§11.5)
voir Déterminant (§5.3), Pronoms (12.3b)
voir Déterminants (§5.4)
voir §5
voir Déterminants (§5.4)
voir Résidu (§17)
voir Verbes (§16.1, 16.2)
voir Verbes (§16.4)
voir Substantifs (§15.4.2)
voir Adjectif (§ 1.2), Déterminants (§5.3, 5.6) , Pronoms (§12.3b)
voir Verbes (§16.4)
voir §6
voir Pronoms (§12.3b)
voir Déterminants (§5.8)
voir Verbes (§16.1)
voir Adverbes (§2.1)
voir Substantifs (§15)
voir Substantifs (§15.4.1)
voir Substantifs (§15.2)
voir Substantifs (§15.3)
voir Cardinaux (§3)
voir Interjections (§6)
voir Adjectifs (§1.2)
voir §7 et voir Verbe (§16.5)
voir Verbes (§16.4)
voir §8
voir Déterminants (§5.4)
voir Pronoms (§12.3a, 12.3b)
voir Adverbe (§2.5)
voir §9
voir Adjectifs (§1.2), Déterminants (§5.3) Pronoms (§12.3b)
voir Adverbes (§2.2), Déterminants (§5.5
voir §10
voir §11
33
Pronoms
qualificatif
que
Relatif
rien
Subordonnant
Substantif
substantivé
superlatif
Symbole
signe mathématique
-t-on
tout
un, une
voir §12
voir Adjectifs (§
voir Subordonnants (§14.3)
voir §13
voir Adverbe (§2.5)
voir §14
voir §15
voir Adjectifs (§
voir Adjectifs (§
Adverbes (§ 2.3)
voir Résidu (§17)
voir Résidu (§17)
voir Pronoms (§12.3a), Particules (§8.2)
voir Déterminants (§5.9)
voir Cardinaux (§3.4)
34
Bibliographie
BAUDOT, Jean (1992) :Fréquences d’Utilisation des Mots en Français écrit contemporain, Les Presses de
l’Université de Montréal, 1992.
BRILL, Eric (1994) : Some Advances in Transformation-Based Part-of-Speech Tagging. In Proceedings of the
12th National Conference on Artificial Intelligence (AAAI-94)
BRILL, Eric (1993) : A Corpus-Based Approach to Language Learning. A dissertation in Department of
Computer and Information Science. Université de Pennsylvanie, Philadelphie, 1993
BRILL, Eric (1993) : Automatic Grammar Induction and Parsing Free Texts : A Transformation-Based
Approach, In Proceedings 31st Meeting of the Association of Computational Linguistics, Columbus, 1993
BRILL, Eric (1993) : Transformation-Based Error-Driven Parsing, In Proceedings 3rd International Workshop
on Parsing Technologies. Tilburg , 1993
BRILL, Eric (1992) : A Simple Rule-based Part Of Speech Tagger. In Proceedings 3rd Conference on Applied
Computational Language (ACL) Processing, Trento, Italy, 1992
BRILL, Eric (1991) : Discovering the Lexical Features of a Language. In Proceedings of the 29th Annual
Meeting of the Association for Computational Linguistics, Berkeley, CA, 1991
BRILL, Eric ; MAGERMAN, David ;MARCUS, Mitchell ; SANTORINI, Beatrice (1990) : Deducing Linguistic
Structure from the Statistics of a Large Corpora In Proceedings of the DARPA Speech and Natural Language
Workshop, June 1990, 275,282.
BRILL, Eric ; MARCUS, Mitchell (1992) : Tagging an Unfamiliar Text With Minimal Human Supervision In
Proceedings of the Fall Symposium on Probabilistic Approaches to Natural Language, (AAAI-1992)
BRILL, Eric ; MARCUS, Mitchell (1992) :Automatically Acquiring Phrase Structure Using Distributional
Analysis. DARPA Workshop on Speech and Natural Language, 1992
BRILL, Eric ; RESNIK, Philip (1994) : A rule-Based Approach to Prepositional Phrase attachment
Disambuaguation. In Proceedings of the 15th COLING, Tokyo, 1994
CATACH, Nina (1996 ) : La Ponctuation . P.U.F., Que sais-je, 2818
CHANOD, J.P. ; PAPANAINEN, Pasi (1994) : Statistical and Constraint-Based Taggers for French. Technical
Report MLTT-016, Rank Xerox Research Centre, Grenoble, France
CUTTING,D. ; KUPIEC, J. ; PEDERSEN, J. ; SIBUN, P.(1994) : A Practical Part Of Speech Tagger. In
Proceedings 3rd Conference on Applied Natural Language Processing, Trento, Italy, 1992
DE LOUPY, Claude (1995) :La méthode d’étiquetage d’Eric Brill. In T.A.L., 1995, vol.36.1-2, pp.37-46
EJERHED, Eva (1995) :Linguistic and Computational Principles for Tagset Minimization. TALN95, Table
Ronde TALN, Marseille, France, 1995.
GREVISSE, Maurice (1986) : Le Bon Usage, Grammaire Française. Douzième édition refondue par André
Goose. Duculot, 1986
LE GOFFIC, Pierre (1993) : Grammaire de la Phrase française. Hachette, Paris, 1993
MARCUS, Mitchell, ; SANTORINI, B. ; MARCINKIEWICZ, Mary Ann (1993) : Building a LargeAnnotated
Corpus of English : the Penn Treebank. In Computational Linguistics, 1993
35
MATHIEU-COLAS, Michel (1994) : Les Mots à Traits d’Union . Problèmes de lexicographie informatique.
Paris, Didier Erudition, 1994
PALMER, D.D. ;HEARST, M.A. (1994) : Adaptative Sentence Boundary Disambiguation . Technical Report
UCB/CSD 94/797, University of California, Berkeley, Computer Science Division, 1994
RIEGEL, Martin ; PELLAT, J.Christophe ; RIOUL, René (1994) : Grammaire méthodique du Français. Presses
Universitaires de France, 1994
SANTORINI, Béatrice (1991) : Part-of-Speech Tagging Guidelines for the Penn Treebank Project . Technical
Report MS-CIS-90-47, 1990, Department of Computer and Information Science, University of Pennsylvania,
SPRIET, Thiery ; EL-BEZE, Marc (1995) : Etiquetage Probabiliste et Contraintes Syntaxiques. in Actes de
TALN95, 115-123, Marseille, France, 1995
A consulter aussi :
Actes de TALN95
T.A.L., 1995, vol. 36.1-2 : Traitement probabilistes et Corpus .
Revue semestrielle de l’ATALA, Association pour le Traitement des Langues.
36
Téléchargement