Josette Lecomte INaLF/CNRS décembre 1998 LE CATÉGORISEUR BRILL14-JL5 / WINBRILL-0.3 (Catégoriseur d’Eric Brill, Université de Pennsylvanie, entraîné pour le Français à l’INaLF PLAN provisoire : Chapitre 1 : Présentation générale du Catégoriseur d’Eric Brill (U.Penn) p. 2 Chapitre 2 : Le Jeu d’Etiquettes retenu pour BRILL14-JL5 (INaLF) p. 4 Chapitre 3 : Critères d’assignation des étiquettes BRILL15-JL5 p. 7 Chapitre 4 : Ré-Apprentissages pour BRILL14-JL5 Généralités Apprentissage à l’INaLF p. 22 p. 22 p. 23 Chapitre 5 : BRILL14-JL5 : mode d’emploi à l’ INaLF Appel du texte Pré-Traitements Etiquetage Généralités Modalités INaLF Post-traitements p. 28 p. 28 p. 28 p. 29 p. 29 p. 29 p. 31 Index Bibliographie p. 33 p. 35 1 Chapitre 1 Présentation générale du catégoriseur d’Eric Brill entraîné à l’INaLF 1. PRÉLIMINAIRES Un « assignateur de catégories », ou « catégoriseur » est un outil d’étiquetage automatique de textes. C’est un « annotateur » d’un type un peu particulier, qui permet d’affecter à chaque « mot » (ou à chaque « terme ») d’un texte, une étiquette représentative de sa catégorie grammaticale, en « langue » ou en « discours ». Il traite donc de la classe des mots. Il se distingue d’un « parseur » qui traite des constituants plus larges, syntagmes et propositions, au niveau de la phrase. 2. POINT DE VUE LINGUISTIQUE 1.a - Fondements linguistiques Le catégoriseur de Brill est fondé sur les travaux des structuralistes américains (Bloomfiels, 1933 ; Harris, 1946,1951). E. Brill l’a décrit dans sa thèse , dirigée par Mitchell Marcus, et soutenue à l’Université de Pennsylvanie en 1993 L’idée structuraliste, reprise de Harris et de son contemporain Wells par Brill est la suivante : Il vaut mieux approcher la description d’une langue sans idée préconçue, et se fonder sur l’observation des faits linguistiques rencontrés. On pourra ainsi découvrir les morphèmes à partir des phonèmes, les classes de mots à partir des mots, etc. Par des procédures de classification, on pourra repérer des distinctions significatives, et si, de plus, on utilise des techniques d’approximation, on arrivera à affiner le repérage. Dans l’approche de Brill, une fois qu’un « informateur humain » (linguiste de préférence) a étiqueté un petit texte-échantillon sélectionné au hasard dans un grand corpus à étiqueter, tout l’apprentissage est automatique. Il n’y a pas de linguiste « de terrain », expert confirmé, qui travaille avec l’informateur et peut fournir une information « intensionnelle » sur la langue à étudier. Le système utilise une distribution « extensionnelle », observée par lui dans le petit échantillon qui vient d’être manuellement annoté. En plus, cette notion de distribution extensionnelle est, d’une certaine façon, élargie : Au lieu d’examiner seulement la distribution des entités dans un corpus, une hypothèse dite « naïve » est lancée, concernant la structure du langage (d’où un ériquetage des mots inconnus selon cette hypothèse), puis une analyse de la distribution des erreurs est conduite, pour mettre en lumière des transformations à effectuer en vue d’éliminer ou tout au moins de réduire les erreurs d’étiquetage. 1.b - Fonctionnement de l’étiqueteur Cet outil de catégorisation peut fonctionner tel quel, si on lui fournit les « arguments » adéquats à faire figurer dans la commande d’étiquetage (par exemple, si on veut réutiliser des fichiers pré-existants) . Il est possible aussi de partir de rien, de laisser le système apprendre (selon le mode d’emploi fourni par E. Brill , dans un de ses fichiers « README » ) et créer tous les fichiers intermédiaires nécessaires à la bonne exécution de la commande finale d’étiquetage. Cet apprentissage se fait en deux étapes. La première aboutit à la création d’un fichier de règles (dites « lexicales ») destinées à l’étiquetage des mots inconnus. Elle peut être presqu’entièrement automatique, avec un rôle de l’humain réduit au minimum, c’est-àdire au codage du texte échantillon avec un ensemble d’étiquettes de PdeD (PdeD signifie ici « Parties du Discours ») pré-établi par l’humain ou bien obtenu avec l’aide du système. L’information est ensuite extraite de ce corpus échantillon étiqueté, par le système, avec les méthodes de l’analyse distributionnelle. La seconde aboutit à la création d’un fichier de règles (dites « contextuelles ») nécessaires pour affiner l’étiquetage, c’est-à-dire tenter de revenir sur des affectations erronées. Toujours à partir du même corpus échantillon étiqueté manuellement, le système va déduire et apprendre une série de modèles de transformations qui seront déclenchés cette fois par l’environnement contextuel du code précédemment assigné. 2 L’étiquetage se fait aussi en deux étapes, correspondant aux deux phases d’apprentissage : Dans la première, chaque mot du texte (simple ou reconnu comme un composé) reçoit une étiquette correspondant à sa PdeD la plus probable dans le contexte considéré, soit par consultation du Lexique où le mot est connu, soit par application des « règles lexicales » si le mot est inconnu au Lexique. Dans la seconde, le système revient sur ces premières affectations, examine le contexte local, et corrige éventuellement les étiquettes précédemment affectées. A la fin de cette seconde étape, chaque mot aura reçu une étiquette correspondant à sa classe « en discours », c’est-à-dire en contexte ( par exemple, un mot qui, historiquement, est un adverbe, pourra se retrouver, en contexte, étiqueté comme un nom ou un pronom). 3. POINT DE VUE INFORMATIQUE Ce catégoriseur est un outil dont l’intérêt essentiel réside dans un « auto-apprentissage » d’une sorte de Base de Connaissances à partir de n’importe quel type de Corpus, avec n’importe quel type d’étiquettes de PdeD (ou autres, car rien n’interdit d’utiliser des étiquettes sémantiques ou phonologiques pour préparer le corpuséchantillon...) , puis dans l’application à un autre plus grand corpus des connaissances apprises. La connaissance apprise par le système sur le petit corpus-échantillon est projetée comme « probable », par le même système, sur le plus grand corpus. Il est « portable » sur d’autres corpus, et même sur d’autres langues que l’anglais sur lequel Brill l’a expérimenté. La quantité d’information à lui fournir est réduite, puisqu’il apprend lui-même et automatiquement ce qu’il estime nécessaire à la catégorisation la plus probable. Il se présente sous forme de séries de fichiers, rangés dans des répertoires aux noms explicites, avec des fichiers README formant un mode d’emploi clair et rigoureux. La version 1.14 utilisée actuellement à l’INaLF (Institut National de le Langue Française) fait suite à des versions 1.0 puis 1.10 précédemment explorées. Chaque nouvelle version a apporté des améliorations (avec des opérateurs nouveaux, une plus grande souplesse dans l’apprentissage), favorisant une plus grande efficacité et une meilleure convivialité avec l’utilisateur. De plus, une troisième étape de traitement est en développement, visant à améliorer les résultats de la deuxième étape. Cette version 1.14, entraînée à l’INaLF, y fonctionne sous UNIX et a récemment été « portée » d’Unix sous Windows95. D’autres tests sont en cours avec Linux. Pour la version UNIX : le logiciel, qui est celui d’Eric Brill tel quel, sans aucun ajout ni modifications est libre d’accès selon son Copyright. Les fichiers utilisés pour son application au Français sont produits par l’INaLF. La version portée sous Windows95 par Gilles Souvay est distribuée sous le nom de WinBrill-0.3, moyennant signature d’une convention avec l’INaLF. Les paramètres linguistiques qui y sont associés sont les mêmes, quelle que soit la version : Unix ou Windows. 3 Chapitre 2 Le jeu d’étiquettes retenu pour la version BRILL14-JL5 1. LANGUE ET DISCOURS Un de nos problèmes a été de définir à quel niveau nous allions coder le texte : Langue ? ou Discours ? Un codage en "langue" va offrir un éventail de possibilités, en quelque sorte poser les ambiguïtés, hors contexte. Un codage en "discours" va affecter une étiquette de PdeD selon l'emploi en contexte dans le message écrit considéré. Après de multiples tentatives,nous avons finalement opté pour un codage "en discours", "en contexte". Et ceci est dû en grande partie au fait que nous voulons jouer le jeu du "taggueur" de Brill, qui se place dans cette optique. 2. QUEL SYSTÈME D'ÉTIQUETTES ? Les analyseurs existants fonctionnent selon deux approches différentes : soit avec un ensemble d'étiquettes très restreint, répondant aux besoins précis de l'utilisateur (ex. D.LABBE, qui travaille sur le français avec 16 codes différents seulement), soit avec un ensemble d'étiquettes extensif, très complet, très précis, voulant fournir des codes différents pour tous les mots ayant un comportement différent (ex. STEIN et DAMOVA à Stuttgart, avec 190 codes différents pour le traitement du français; ou encore les ensembles d'étiquettes utilisés pour l'anglais et le codage du LOB Corpus (135) ou du London-Lund Corpus (197)). Il y a donc deux approches : minimaliste et maximaliste, tout aussi intéressantes l'une que l'autre, et toutes deux possibles avec un analyseur probabiliste tel que celui de Brill. Le système d'étiquettes utilisé à l'INALF dans les Lexiques (TLFnome de MAUCOURT + PAPIN + REIMEN ) contient environ 100 codes différents pour 5 grandes catégories du discours (45 pour les verbes conjugués, 3 pour les verbes non conjugués, 4 pour les adjectifs, 4 pour les substantifs, et 47 pour la maxi-classe des "mots grammaticaux" (englobant pronoms, adverbes, prépositions, conjonctions, etc ...).Nous nous sommes servi de cet ensemble d'étiquettes pour en dériver la nôtre, à partir de certaines recommandations d'E.Brill aux utilisateurs de son catégoriseur: Ces recommandations, (lues dans "Building a large annotated Corpus of English : The Penn Treebank" de Marcus, Santorini, Marcinkiewicz, 1993) sont fondées sur le codage d'un corpus de plus de 4,5 millions de mots; cette tâche de codage selon les PdeD s'étant faite en 2 étapes : un première phase d'assignation automatique et une seconde phase de correction par des humains. On peut les résumer comme suit : En fait, on peut utiliser un ensemble d'étiquettes réduit ou très détaillé si on le souhaite: tout dépend de la stratégie choisie: Si on pense faire de l'analyse logique et de la reconnaissance de syntagmes et de propositions ("parsing") plus tard, on peut laisser en attente des choses qu'on récupérera plus tard (par exemple, avoir au niveau du "tagging" un code syncrétique pour englober Prépositions/Subordonnants/Coordonnants, code que l'on désambiguïsera plus tard). Donc, ne pas coder des subtilités récupérables par la suite dans une étape ultérieure du travail. Si on veut pouvoir être cohérent lors de l'étape de codage manuel du corpus échantillon, il vaut mieux réduire le nombre des étiquettes.Mais il faut que l'ensemble d'étiquettes retenu soit "optimal", avec des codes distincts pour chaque classe de mots ayant un comportement grammatical différent en discours. Par ex : inutile d'avoir pour l'anglais 20 codes de verbes rendant compte de cas particuliers quand 5 codes plus généraux suffisent. 4 Il faut, si l'on veut que le système apprenne certaines règles de désambiguïsation, coder le mot selon la fonction "syntaxique" qu'il occupe en contexte. Par exemple : "Si" sera codé Subordonnant quand il fonctionne comme conjonction de subordination, et Adverbe quand il fonctionne comme adverbe intensif. Si tu veux venir -> SUB il est si gentil -> ADV et non avec un code syncrétique disant qu'il peut être SUB ou ADV. Les ambiguïtés de PdeD seront résolues en contexte (le plus souvent) et s'il existe une "indécidabilité" de la part du codeur, le système affecte l'étiquette la plus probable en fonction de ce qui se trouve au lexique, ou de ce qui se trouve dans les règles concernant les mots inconnus. Ceci nous a fait opter pour un jeu d’étiquettes relativement réduit, avec des critères précis pour l'affectation des codes. 3. LES PARTIES DU DISCOURS RETENUES : Elles sont au nombre d'une cinquantaine, non incluses les ponctuations. Les critères définis pour leur utilisation se trouvent au chapitre suivant. Voici la liste des étiquettes PdeD adoptées pour notre expérience BRILL14-JL5 / WINBRILL-0.3 Etiquettes ABR ADJ :sg ADJ :pl ADV CAR COO DTN :sg DTN :pl DTC :sg DTC :pl FGW INJ PFX PREP PRV :sg PRV :pl PRV :++ PRO :sg PRO :pl PRO :++ PUL REL SUB SUB$ SBC :sg SBC :pl SBP :sg SBP :pl SYM ACJ :sg signification Abréviation Adjectif (sauf Participe passé) au singulier Adjectif (sauf Participe Passé) au pluriel Adverbe Cardinal (en chiffres ou en lettres) Coordonnant Déterminant de groupe nominal, au singulier, non contracté Déterminant de groupe nominal, au pluriel, non contracté Déterminant de groupe nominal, au singulier, contracté Déterminant de groupe nominal, au pluriel, contracté Mot étranger Interjection, Onomatopée, etc. Préfixe détaché Préposition Pronom « supporté » par le verbe (conjoint, clitique) au singulier Pronom « supporté » par le verbe (conjoint, clitique) au pluriel Pronom « supporté » par le verbe (clitique, réfléchi) genre indéterminé autre Pronom, singulier autre Pronom, pluriel autre Pronom, genre indéterminé Particule non indépendante Relatif (Pronom, Adjectif ou Adverbe) Subordonnant Subordonnant possible. = Code par défaut de « que » Substantif, nom commun, singulier Substantif, nom commun pluriel Substantif, nom propre ou à majuscule, singulier Substantif, nom propre ou à majuscule, pluriel Symbole ou Signe mathématique Verbe « avoir », conjugué, singulier 5 ACJ :pl ANCFF ANCNT APAR :sg APAR :pl ECJ :sg ECJ :pl ENCFF ENCNT EPAR :sg VCJ :sg VCJ :pl VNCFF VNCNT VPAR :sg VPAR :pl ADJ1PAR :sg ADJ1PAR :pl ADJ2PAR :sg ADJ2PAR :pl Verbe « avoir », conjugué, pluriel Verbe « avoir », non conjugué, infinitif Verbe « avoir », non conjugué, gérondif ou participe présent Verbe « avoir »,non conjugué, participe passé, singulier Verbe « avoir »,non conjugué, participe passé, pluriel Verbe « être », conjugué, singulier Verbe « être », conjugué, pluriel Verbe « être », non conjugué, infinitif Verbe « être », non conjugué, gérondif ou participe présent Verbe « être », non conjugué, participe passé, singulier (pas de pluriel) autre Verbe, conjugué, singulier autre Verbe, conjugué, pluriel autre Verbe, non conjugué, infinitif autre Verbe, non conjugué, gérondif ou participe présent autre Verbe, non conjugué, participe passé après « avoir », singulier autre Verbe, non conjugué, participe passé après « avoir », pluriel Participe passé après « être », adjectival ou verbal, au singulier Participe passé après « être », adjectival ou verbal, au pluriel Participe passé adjectival, singulier (non après auxiliaire) Participe passé adjectival, pluriel (non après auxiliaire) Cette liste est bien sûr incomplète. Il faut bien voir qu'elle est fonction de notre corpus échantillon. A ces 50 codes, il convient d'ajouter une quinzaine de signes de ponctuation. 6 Chapitre 3 Les Étiquettes de Parties du Discours : critères d’assignation Remarque préliminaire : certaines étiquettes de PdeD peuvent contenir une valeur de trait "Nombre". Par exemple, pour les Adjectifs, :xx sera obligatoirement instancié soit en :sg soit en :pl et pour les Pronoms, :xx sera obligatoirement instancié soit en :sg, soit en :pl, soit en :++. 1. LES ADJECTIFS : ADJ:xx 1.1- Les Adjectifs reçoivent un valeur de trait "Nombre", singulier ou pluriel Exemple : ADJ:sg ADJ:pl 1.2- Ce code concerne tous les adjectifs (qualificatifs, ordinaux, possessifs, indéfinis) par opposition aux Déterminants qui sont des introducteurs de syntagmes nominaux (appelés DTN ou DTC) Exemples : - des besoins immédiats/ADJ:pl - faire miennes/ADJ:pl les idées d'un autre - la cinquième/ADJ:sg fosse - le ivème/ADJ:sg chapitre (= le 4ième chapitre) 1.3- Cas des Adjectifs Participes Passés : voir " Participes" 1.4- Il n’y a pas de codage particulier pour les adjectifs au comparatif et au superlatif. 1.5- Les Adjectifs contractés sont considérés comme des Déterminants : dudit, audit, desdits, auxdits sont étiquetés DTC (Déterminants contractés) ladite, ledit, lesdits sont étiquetés sont étiquetés DTN (Déterminants normaux) 1.6- Les Adjectifs "adverbialisés" ou "adverbalisés" , ou "invariés" ou "invariables" (derrière certains verbes) sont considérés comme des Adjectifs et non des Adverbes. Exemples : il crachait noir ça tombe dru ! 1.7- Les Transferts de catégories Cas des Adjectifs employés comme Adverbes : Ils sont impossibles à discriminer par le système, étant donné le manque de finesse de l'information fournie par le jeu d'étiquettes. Les seuls ambigus ADJ:xx /ADV actuellement retenus sont "fin", "fort", "juste", "soudain". Tous les autres sont codés ADJ:xx. (cf. supra) Exemples : il est fin prêt. Tu parles fort, c’est fort bon, un garçon fort et courageux, 7 il arrive juste après la bagarre, le juste prix des choses, il est soudain devenu furieux, un bruit soudain , - Cas des Adjectifs substantivés : Ils sont codés comme des Substantifs (noms communs). il chante juste, 1.8- Les Ambiguïtés : Adjectif/Nom Adjectif/Pronom Adjectif/Verbe Le système a été entraîné sur un corpus où l'ambiguïté a été levée selon le rôle tenu en contexte. Il tente donc de lever l’ambiguïté en contexte. 2.- LES ADVERBES : ADV 2.1 Ce code concerne tous les adverbes, quel que soit leur contenu sémantique. Il peut concerner les Locutions Adverbiales, qui ont été reconnues comme telles dans une phase de pré-traitement et regroupées avec un « souligné » (underscore). Les autres sont décomposées en leurs divers constituants. Exemples : - hier/ADV - presque/ADV - environ/ADV - ne/ADV jamais/ADV - pas/ADV - point/ADV - très/ADV.. - que/ADV de peine engloutie ! - combien/ADV en veux tu ? - cette maison -ci/ADV - d'_ailleurs/ADV d'_abord/ADV 2.2- Il n’y a pas de codage particulier en ce qui concerne les adverbes prédéterminants Exemple :. presque/ADV tous les mois ... A noter que "tout"/"toute"/"toutes"/"tous" en position de prédéterminants sont codés comme des déterminants et non comme des adverbes. 2.3- Il n’y a pas de codage particulier non plus pour les adverbes au comparatif ou au superlatif. 2.4- Les particules déictiques ci et là sont traitées comme des adverbes, après avoir été pré-traitées pour leur accrocher le trait d’union qui les précède. 2.5- Citons les cas particuliers de rien, beaucoup et peu : - beaucoup est Adverbe possible (prévu au lexique comme Adverbe ou Pronom pluriel) - peu est Adverbe possible (prévu au Lexique comme Adverbe, Pronom sing. ou Pronom pluriel) - rien n’est pas prévu comme Adverbe possible (seulement Pronom ou Substantif) 3.- LES CARDINAUX : CAR 8 3.1- Les Cardinaux ne reçoivent pas de valeur de trait "Nombre". 3.2- Ce code concerne tous les numéraux cardinaux, écrits en chiffres ou en lettres, ainsi que les dates. Exemples : - 89/CAR - cent/CAR mille/CAR francs - deux/CAR cents/CAR dix/CAR mètres mais : - des millions/SBC:pl - les deux/CAR tiers/SBC:pl 3.3- Il n'y a pas de subdivision des cardinaux selon leur fonction. Qu’ils soient Déterminants, Pronoms, ou Noms, ils sont tous étiquetés CAR. Exemples : - il a quatre-vingt-douze/CAR ans - chapitre xv/CAR - les deux/CAR premiers sont morts. - j'ai eu trois/CAR chiens et lui quatre/CAR. - les deux/CAR amis que j'avais ne sont plus. 3.4- La distinction entre déterminant indéfini et cardinal, à propos de "un" et "une", n'est pas posée, car insoluble au niveau où nous travaillons, avec l'outil que nous utilisons. Ils sont systématiquement considérés comme déterminants ou pronoms, jamais comme cardinal. 4.-LES COORDONNANTS : COO 4.1- aussi appelées 'Conjonctions de Coordination'. 4.2- Ce code concerne : et, ou, ni, mais, or, car. Mais aussi des expressions comme : c’est-à-dire, non_seulement, mais_encore 4.3 donc est considéré comme un adverbe. sinon est préposition ou adverbe etc.. 4.4 chaque élément de coordonnant discontinu ( soit, ,soit ) reçoit un code de coordonnant normal. 5.- LES DÉTERMINANTS : DTN:xx ou DTC:xx 5.1- La subdivision en deux sous-classes correspond à une réalité pratique : DTN:xx : sont des déterminants "normaux" DTC:xx : sont des déterminants "contractés" : soit : préposition (à, de, en) + Article défini (le, les)., soit marqueur partitif (de) + Article défini (le,les) 5.2-Les déterminants reçoivent une valeur de trait "Nombre" , xx devant être instancié en sg ou pl. 9 5.3- Les Déterminants sont les introducteurs de syntagmes nominaux : articles définis : le, la, les articles indéfinis : un, une, des, certains, tout, ... articles partitifs : du, des, de articles possessifs : son, sa, ses, leurs, .. articles démonstratifs : ces, cette, cet, ce articles quantifieurs : plusieurs, quelques, aucune, ... 5.4- Cas particuliers des AMBIGUS PARTITIFS : "de" est ambigu "marqueur partitif" et "préposition", d'où les ambiguïtés portées par "du" et "des". Il est impossible au système, au niveau morpho-syntaxique seul, de distinguer les deux rôles de "de". C'est pourquoi le catégoriseur a été entraîné sur un corpus où cette distinction n'a pas été faite : "de" est étiqueté préposition (sauf incohérence de la part du codeur humain). Cependant, dans la suite du travail, nous avons trouvé quelques règles permettant d’affiner le codage. C’est pourquoi il est prévu au Lexique avec les possibilités de Déterminant "du" a été systématiquement étiqueté DTC:sg, car il est une contraction du marqueur partitif et de l'article défini, ou une combinaison de la préposition et de l'article défini. "des" a été étiqueté DTC:pl. DTC est un code "par défaut", car en plus des deux possibilités ci-dessus, "des" peut aussi être l'article indéfini pluriel de "un". Notes : a)on aurait pu coder ces DTC en PREP-complexes, mais il a semblé plus efficace (si on veut garder des indications de nombre, et éventuellement de genre) de les considérer comme des déterminants. b)un travail de désambiguïsation a ultérieurement été tenté sur ces ambigus partitifs, avec un certain succès. Le code DTC reste cependant l’étiquette par défaut lorsque la désambiguïsation a échoué. Exemples : - jusqu' au/DTC:sg pavé - les/DTN:pl mineurs avec leurs/DTN:pl lampes - affluaient de toutes/DTN:pl parts . - la foi aveugle des/DTC:pl nouveaux arrivants - au/DTC:sg milieu des/DTC:pl bancs - je t'apporte des/DTC:pl pivoines du/DTC:sg jardin. 5.5- Certains déterminants peuvent être précédés d'adverbes "pré-déterminants", mais nous n'en avons pas tenu compte dans la classification. Les pré-déterminants (du type presque, environ,...) sont notés adverbes. Le pré-déterminant tout est un cas particulier (voir ci-dessous,paragraphe 5.9). Exemples : - ces/DTN:pl enfants ne sont pas mes/DTN:pl enfants - ça s'est passé mainte/DTN:sg et mainte/DTN:sg fois ... - j'en veux juste/ADV une/PRO:sg 5.6- Attention à bien différencier les déterminants indéfinis et les adjectifs qualificatifs. Les critères que nous retenons sont les suivants : placés entre un déterminant et un nom : adjectifs postposés au substantif : adjectifs antéposés au substantif, et en l'absence de tout autre déterminant, ils sont déterminants. antéposés à un déterminant non contracté, "tout" et ses variantes deviennent déterminants (voir ci-dessous, cas particulier de "tout"). Exemples : 10 - certains/DTN:pl jours, il fait gris. - il est d'un âge certain/ADJ:sg - un certain/ADJ:sg monsieur X - sans volonté aucune/ADJ:sg - presque/ADV tous/DTN:pl leurs/DTN:pl gamins en veulent. 5.7- Les déterminants numéraux cardinaux sont codés comme des Numéraux et non comme des déterminants. Exemple : - deux/CAR femmes sont passées. 5.8- Un élément comme "L’", dans l'exemple "si l'on voulait" fait maintenant partie de la locution composée « l’on » codée selon sa fonction , c'est à dire Pronom (dans les versions antérieures, il était étiqueté selon sa fonction historique d’origine, c’est-à-dire article défini devant pronom) : Exemple : - si/SUB l'_on/PRV:sg voulait/VCJ:sg A noter que d'autres pronoms peuvent être précédés d'un introducteur de syntagme nominal . Exemples : l'/DTN:sg un, quelques/DTN:pl uns ... 5.9- Cas particulier de TOUT, TOUTE, TOUTES, TOUS Le gros problème pour ce mot, c'est l'ambiguïté. Nous avons tenté d'établir des critères, mais ils sont loin d'être fiables à cent pour cent. "tout", "toutes" sont considérés comme adjectifs lorsqu'il sont postposés au substantif ou placé entre un déterminant et un substantif. Exemples : - au tout/ADJ:sg début - le tout/ADJ:sg Paris - somme toute/ADJ:sg "tout" est considéré comme substantif lorsqu'il est précédé d'un déterminant (contracté ou non), et non suivi de substantif. Exemples : - le tout/SBC:sg est de savoir ce que vous voulez - et mon tout/SBC:sg est une plante. "tout", "toute", "toutes", "tous" sont considérés comme des déterminants lorsqu'ils précèdent -- un autre déterminant DTN, (ambiguïtés possibles ). -- un pronom -- un substantif Exemples : - tous/DTN:pl les/DTN:pl deux de promenaient. - toute/DTN:sg ma/DTN:sg volonté est partie .. - tous/DTN:pl mes/DTN:pl copains sont là *-- ce sont tous/PRO:pl mes/DTN:pl copains - tout/DTN:sg cela/PRO:sg est nul - il avait pour tous/DTN:pl meubles un lit et une table. "tout", "toutes", "tous" peuvent aussi être considérés comme des pronoms (difficulté de choisir entre substantif et pronom, les deux catégories pouvant être précédées d'un déterminant). On les notera pronoms, par exemple, devant un verbe dont ils sont sujets, ou objets, mais en l'absence d'un déterminant ..ou derrière une préposition, une conjonction .. Exemples : - toutes/PRO:pl passent par là - elle voulait tout/PRO:sg avoir 11 - tous/PRO:pl sont venus et peu sont restés. - et voilà tout/PRO:sg ! - il est joli comme tout/PRO:sg. "tout", "toute", "toutes", "tous" sont adverbes dans tous les autres cas. Par exemple devant un adjectif, un adverbe, en tête de locutions adverbiales (non regroupées), etc. Exemples : - elle est toute/ADV seule - ça passait tout/ADV juste/ADV - tout/ADV en l'examinant, il chantonnait. - je fais ça tout/ADV aussi bien qu'un autre. - en avant toute/ADV ! - des salles toutes/ADV débordantes de monde. 6. LES INTERJECTIONS : INJ 6.1- Elles sont surtout utilisées en discours direct. 6.2- Peuvent être codées INJ : - hélas (!), chut - ouais, oui, non, ouiche, dame, ben, hein, nenni ... 7.- LES PARTICIPES PASSÉS: VPAR:xx, ADJ1PAR:xx, ADJ2PAR:xx Ils ne reçoivent pas tous la même étiquette : tout dépend de leur environnement. 7.1- Sont notés VPAR:xx APAR:xx EPAR:sg les participes passés placés en syntagme verbal derrière l'auxiliaire "avoir" (auxiliaire de temps).uniquement. APAR:sg / APAR:pl : participe passé du verbe "avoir" EPAR:sg : participe passé du verbe "être" VPAR:sg / VPAR:pl : participe passé de tout autre verbe . Exemples : - elle a mangé/VPAR:sg - elle a été/EPAR:sg mangée - elle a eu/APAR:sg faim - les gens que j' ai vus/VPAR:pl 7.2- Sont notés ADJ1PAR:xx les participes passés placés derrière un verbe "être" uniquement, de façon à pouvoir éventuellement récupérer la voix passive. ADJ1PAR:sg / ADJ1PAR:pl : tout participe passé derrière "être" Exemples : - elle était fatiguée/ADJ1PAR:sg - elle a été/EPAR:sg fatiguée/ADJ1PAR:sg - j'ai été/EPAR:sg eue/ADJ1PAR:sg ! 7.3- Sont notés ADJ2PAR:xx les participes passés placés dans TOUS les autres contextes (nominaux ou ambigus ou derrière un verbe autre que "être" ou "avoir"). En fait, cela correspond à la notation par défaut de tout participe passé en contexte non verbal clair. 12 Exemples : - une fosse tout équipée/ADJ2PAR:sg - une telle somme engloutie/ADJ2PAR:sg - il dormait assis/ADJ2PAR:sg mais - je suis tombée/ADJ1PAR:sg , et me suis relevée/ADJ1PAR:sg (Dans les résultats d'étiquetage, ADJ2PAR est fréquemment attribué dans les séquences coordonnées et/ou discontinues). 8.- LES PARTICULES : PUL 8.1- Cette étiquette concerne des éléments qui n'ont pas d'existence autonome et n’ont pas été regroupés dans une locution composée figée Exemple: - quant/PUL à combiner avec au, aux 8.2- Un élément comme -T- dans un verbe "composé" (Verbe+pronom) est pris en compte de la façon suivante : Exemples : "aura-t-on" : aura/VCJ:sg -t-on/PRV:sg "aurait-on" : aurait/VCJ:sg -/- on/PRV:sg Plusieurs approches étaient possibles : -- On aurait pu imaginer un Trait d'Union à sens plein, non détachable des éléments qu'il réunit - trompe-la-mort : SBC:sg - amour-propre : SBC:sg et un trait d'union à sens vide, détachable des éléments qu'il associe en surface - a-t-on vu : a/VCJ:sg -/- t/PUL -/- on/PRV:sg - aurait-on pu : aurait/VCJ:sg -/on/PRV:sg -- Nous en avons retenu une autre, qui combine ces deux approches, et qui est fonction aussi de la façon s'effectue, pour un texte, la "mise aux normes selon E.BRILL" : Certains mots sont précédés du fameux "-" qui leur est accolé, et d'autres non ("-" libre, entre deux blancs). Dans cette liste finie, nous trouvons seulement six pronoms : -t-on/PRV:sg -t-il/PRV:sg -t-elle/PRV:sg -t-ils/PRV:pl -t-elles/PRV:pl - Rappel: Un élément comme "l'", dans l'exemple "si l'on voulait" est codé non comme une particule, mais fait partie d’une forme composée reconnue comme telle - si/SUB l'_on/PRV:sg voulait/VCJ:sg 9.- LES PONCTUATIONS : l'étiquette reprend le "mot" 9.1 Il n'y a pas de code PON rendant compte d'une ponctuation. A chaque signe correspond un code identique au signe en question. Exemples : ,/, ?/? /// 9.2 - Fins de phrases : ponctuations simples : ? ! . et parfois ; : ponctuations groupées : 13 ?… ?) ?] ?" ! ... !) .) !] .] !" ." 9.3 - Le Trait d'union reste à l'intérieur d'un mot, ou bien est isolé entre deux blancs au hasard de la "préédition" des textes pour le passage par le catégoriseur. Le mot à trait d'union interne figure au lexique en tant que tel, et il est pris en compte comme une unité globale. Il se peut que, selon les pré-traitements subis, il ait été décomposé en contituants puis re-collé avec utilisation du caractère « souligné ». Exemples : - un meurt-de-faim/SBC:sg ou bien meurt_-_de_-_faim/SBC:sg - cette maison -ci/ADV ou -_ci/ADV - elle ira elle -même/ADJ:sg ou -_même/ADJ:sg - mon ex/PFX -/- fiancé/SBC:sg - une quasi/ADV -/- unanimité/SBC:sg 9.4- L'apostrophe ne se retrouve jamais entre deux blancs comme c'est le cas d'un élément de ponctuation autonome. Elle est collée à l’élément qui précède. 9.5- Le tiret de discours indirect et les tirets qui se répondent sont isolés entre deux blancs. Ceci est vrai aussi pour toutes les autres ponctuations. Il y a donc une très grande ambiguïté entre le trait d'union et les différents types de tirets. 9.6- Problème des ponctuations dans les abréviations : Le texte est "pré-édité" aux normes de Brill de façon automatique, par référence à un lexique existant. Cela n'empêche malheureusement pas les problèmes, car il est difficile d'y recenser toutes les abréviations possibles. 10. LES PRÉFIXES : PFX - Sont concernés par cette étiquette les préfixes détachés, isolés entre deux blancs ("entre", "ex", "micro" ...), que cet isolement provienne de la volonté de l'auteur, ou d'une segmentation automatique du texte, liée à la mise aux normes BRILL du texte à catégoriser. - Cette étiquette est présente au lexique, est utilisée dans le corpus étiqueté manuellement, mais n'est pas du tout productive au niveau des règles : Jamais le système n'affecte cette étiquette,de lui-même, à un mot d'un texte. 11.-LES PRÉPOSITIONS : PREP 11.1- Il s'agit des prépositions "simples" : à, de, par, jusqu’ 11.2- Pour les prépositions plus complexes (= les Locutions), plusieurs cas se présentent: -- l'un des éléments est une particule non indépendante : - afin/PUL de/PREP - quant/PUL à/PREP -- certains éléments sont prépositions, un autre est plutôt nominal : 14 - en/PREP face/SBC:sg de/PREP - au/DTC travers/SBC:sg de/PREP - à/PREP travers/SBC:sg Les locutions les plus fréquentes ont été regroupées en un mot composé, et étiquetées comme un mot. Tout au moins lorsque le dernier des constituants est lui-même une préposition, ce qui est le cas dans les exemples cidessus. Cependant, ces mêmes locutions prépositives n’ont pas été regroupées lorsque leur dernier constituant est agglutiné à un article et forme lui-même un article contracté. Exemples : -afin_de/PREP -quant_à/PREP mais quant/PUL au/DTC:sg -à_partir-de/PREP mais à/PREP partir/VNCFF du/ DTC:sg 11.3- La sémantique de la préposition n'intervient pas dans le codage. 11.4- Les "prépositions composées" (="fused" en anglais) que sont les combinaisons Préposition + Article sont interprétées par nous comme des Déterminants contractés. C'est le cas de du, des, au, aux, ès. 11.5- Les prépositions déictiques (voici, voilà, revoici, revoilà) ne reçoivent pas d'étiquette particulière. Notes: "comme" n'est jamais une préposition, mais un subordonnant (introduisant une conjonctive normale ou tronquée), ou un adverbe exclamatif. "excepté", "vu" devraient être codés PREP dans leur comportement en tant que préposition, mais les exemples sont rares et le système n'a pas appris de règles les concernant. Ils sont donc participes passés. "de" n'est codé que PREP. L'impasse est faite sur ses possibilités DTN (équivalent à "des") et sur son possible rôle de "marqueur quantitatif" dans l'article partitif. 12.-LES PRONOMS : PRV:xx et PRO:xx 12.1- Cette catégorie concerne les éléments pro-nominaux, à l'exclusion des relatifs (code REL). 12.2- Ils comportent une sous catégorisation en Nombre : sg, pl, ou ++ "++" (pour "indéterminé" ou "non pertinent") est attribué systématiquement à "en" et "y", et aussi à "s ‘ " et "se" devant une forme verbale non conjuguée. 12.3- Ils sont subdivisés en 2 sous-classes, pour des raisons de comportement en relation avec le verbe : a)-- PRV:xx : Les pronoms "supportés" par le verbe. Ce sont uniquement les pronoms "conjoints" personnels sujets, compléments directs , réfléchis avec en plus les pronoms adverbiaux : - je tu il elle nous vous ils elles ce on - me te se leur les la le - lui - en y (qu'ils soient "clitiques", "atones" etc ... suivant les grammairiens auxquels on se réfère). S'y ajoutent ceux de la liste préfixée par le trait d'union : -t-on -t-il -t-elle -t-elles -t-ils ... 15 b)-- PRO:xx : Tous les autres pronoms Ce sont les pronoms démonstratifs, possessifs etc..... et anaphoriques divers, ou "personnels", mais non dans le même rapport que les précédents avec le verbe (souvent dans un complément prépositionnel, donc non direct): pronoms personnels : - moi toi soi lui vous nous ..... pronoms démonstratifs : - ceci cela ceux ce ... pronoms possessifs : Ils sont à bien différencier des adjectifs possessifs (eux-mêmes à bien différencier des déterminants possessifs). Ils sont pronoms seulement lorsqu'ils sont précédés d'un article défini (le, la, les). - sien sienne .... pronoms indéfinis : - plusieurs maints chacun (l')un .... pronoms interrogatifs : Ce sont ceux qui "interrogent l'identité supposée inconnue de leur référent" (Riegel, Pellat, Rioul). Le contexte n'a pas besoin de contenir un point d'interrogation. Exemples de pronoms : - je/PRV:sg vous/PRV:pl le/PRV:sg conseille vivement - viendrez - vous/PRV:pl ? - asseyons - nous/PRV:pl - les/PRO:pl voici/PREP qui arrivent ! - ils / PRV:pl en/PRV:++ viennent, et ils/PRV:pl en/PRV:++ veulent ! - toi/PRO:sg qui parles si bien, qui/PRO:sg es - tu/PRV:sg ? - ça/PRO:sg ne vient pas de moi/PRO:sg - celui/PRO:sg -ci, c'/PRV:sg est le mien/PRO:sg. - ils/PRV:pl se/PRV:pl sont bien vendus. - je/PRV:sg ne sais pas quoi/PRO:sg dire. - Que/PRO:sg veux - tu/PRV:sg de moi/PRO:sg ? - j'/PRV:sg en/PRO:++ vois plusieurs/PRO:pl, mais ne sais pas qui/PRO:sg viendra. - il faudra s'/PRV:++ habituer. 13.-LES RELATIFS : REL - Ce sont des pronoms qui introduisent une subordonnée relative, complète ou non, avec antécédent exprimé. Ils se distinguent des Subordonnants en ce qu'ils ont toujours une fonction dans la Subordonnée qu'ils introduisent. Cette étiquette privilégie le rôle de "relateur" porté par l'élément. Exemples : - je le vois qui/REL vient. - deux personnes attendaient, dont/REL moi. - c'est lui qui/REL sera bien attrapé. - j'ai vu ta fille, laquelle/REL fille a bien changé. - A noter une grande possibilité d'erreurs d'étiquetage entre le Relatif et le Pronom interrogatif (pour "qui" et "que") ! 14.- LES SUBORDONNANTS : SUB et SUB$ 16 14.1-La subordination est une relation assymétrique de dépendance entre une proposition dite "subordonnée" et une proposition dite "principale". Les subordonnées sont le plus souvent introduites par des marqueurs de subordination. Parmi ceux-ci, les conjonctions de subordination permettent d'introduire des subordonnées complétives (c.o.d. ou c.o.i) ou circonstancielles, complètes ou incomplètes. Ces conjonctions de subordination sont notées SUB, qu’elles soient . - Conjonctions "simples" : Exemples : - que lorsque quand comme ... - Locutions conjonctives : Les locutions figées sont regroupées. Pour les semi-figées, chacun de leurs composants est étiqueté séparément. Exemples : - parce_que/SUB, - afin_que/SUB , mais afin/PUL pour cette fois-ci, qu’/SUB il puisse .... 14.2 Cas particulier de "COMME": Nous considérons que "comme" est ambigu Adverbe/Subordonnant uniquement. Il est Adverbe exclamatif quand il introduit une phrase exclamative dans laquelle il y a une certaine valeur d'intensité portant sur un des éléments du procès. Partout ailleurs, il est Subordonnant, introduisant une subordonnée conjonctive complète ou tronquée. Exemples : - Comme/ADV il est intelligent ! - il est comme/SUB fou ... - Comme prof, il est nul ! - il réagit comme/SUB moi. - comme/SUB il arrivait, il se mit à pleuvoir. 14.3 Cas particulier de "QUE" : "QUE" est très ambigu : au moins Relatif, Subordonnant, et Adverbe de différents types (exclamatif, restrictif). Les critères de reconnaissance d'un "que" Relatif sont peu fiables : distance de l'antécédent, problème des "faux" antécédents ("ce" + "que", par exemple, n'est pas une règle sûre, "que" pouvant introduire une relative ou une complétive), et incertitudes diverses. Les critères de reconnaissance du "que" Adverbe, sont, eux aussi, peu faciles à mettre en oeuvre avec une grammaire telle que celle calculée par le catégoriseur d'E.BRILL. C'est pourquoi nous avons été amenés à proposer et utiliser une variante du code SUB en SUB$ spécialement pour "que". SUB$ signifie "subordonnant possible", mais, en fait, c'est le code d'ambiguïté maximale pour "que". Exemples : - Que/PRO:sg veux -tu donc ? "que" placé ainsi en tête de phrase et suivi d'un verbe conjugué est probablement un pronom interrogatif sûr. mais - je tiens à ce que/SUB$ tu viennes - il refuse l'idée que/SUB$ tout va mal - il ne fait souvent son travail que/SUB$ sous la contrainte. - c'est lui que/SUB$ j'ai rencontré - je veux, cette fois -ci, que/SUB$ tu y ailles - lui, si beau et si gentil, et que/SUB$ j'aime tant restent grandement indéterminés pour un catégoriseur tel que celui de Brill. Donc "que", dans un environnement non certain, est codé SUB$ . 17 15.-LES SUBSTANTIFS : SBC:xx et SBP:xx 15.1 Ils sont répartis en SBC (= noms communs) et SBP (= noms propres et titres honorifiques, et tous mots à majuscules). 15.2 Les SBC (= Noms communs) : Ce sont des mots SANS majuscules, qu'ils soient des noms communs ou des noms propres "démajusculisés". Exemples : - dans les bois/SBC:pl avec du bois/SBC:sg - il se promène avec son molière /SBC:sg sous le bras - il roule en voiture/SBC:sg Ce sont aussi certains mots AVEC majuscules, par exemple les noms de peuples et d'habitants, car "ils ont toutes les caractéristiques syntaxiques et sémantiques des noms communs" (Riegel,Pellat, Rioul, page 177Rem.) Ces noms de peuples et d'habitants sont présents au Lexique avec leur Majuscule et le code SBC:xx. Exemples : - un Mexicain/SBC:sg basané ...... Sont aussi codés SBC les adjectifs substantivés. Exemples : - les gros/ADJ:pl biscuits/SBC:pl servaient à tremper la soupe, les petits/SBC:pl, croquants et légers, étaient une vraie friandise. 15.3 Les SBP (= Noms propres) : Dans FRANTEXT, ils sont repérés par la présence de l'astérisque à l'initiale (Tout au moins pour les textes saisis jusque vers les années 1980). Dès que l'on sort de ce corpus particulier, on se heurte aux problèmes posés par les Majuscules ( noms propres, débuts de phrases, noms communs mis en relief, sigles et abréviations diverses). Dans l'état actuel du catégoriseur, qui distingue les majuscules et les minuscules comme étant des caractères différents, un certain nombre de mots ont au lexique une double entrée. Ainsi, "le" et "Le", "en" et "En", "nous" et "Nous", etc. Dans le cadre du pré-traitement des textes pour une mise aux normes BRILL, des programmes de prises en compte des majuscules ont été proposés par Patrick Paroubek, puis par Nabil Hathout, ce qui évite d’alourdir le Lexique avec trop de doubles-entrées. Les noms propres sont étiquetés comme tels, actuellement, en fonction de trois critères : leur pré-édition au moyen de l'astérisque. Exemple : - *Mr/SBP:sg *Hennebeau/SBP:sg leur présence au lexique avec un code de "Nom propre" Exemples: - Amérique/SBP:sg - Tokyo/SBP:sg leur passage par la grammaire des mots inconnus,qui affecte une étiquette de Nom propre à tout mot inconnu débutant par une majuscule. 15.4- Problèmes divers: 15.4.1 les noms complexes : si la composition est marquée par la présence d'un trait d'union ou d'une apostrophe, le mot figure tel quel au lexique. De plus, il se peut que le pré-traitement ait isolé le trait d’union entre deux blancs, puis recollé les constituants au moyen du caractère « souligné ». Exemple : - pèse-lettre/SBC:sg ou pèse_-_lettre/ SBC:sg 18 si la composition est libre (= sans ponctuation), chaque composant est étiqueté séparément ou bien regroupé en un terme composé si sa fréquence d’apparition est suffisante et son comportement suffisamment figé. Exemples : - gens de lettres --> gens/SBC:pl de/PREP lettres/SBC:pl - à_cet_égard/ADV 15.4.2 les homonymies : à l'intérieur d'une même catégorie, ils sont indécelables. Exemples : - adresse/SBC:sg quel que soit le sens. - livre/SBC:sg quel que soit le genre avec des catégories morphosyntaxiques différentes, elles sont traitées selon le contexte immédiat. Exemples : - son/DTN:sg père ne l'/PRV:sg entendait pas ainsi ! - donne du son/SBC:sg à l'/DTN:sg âne. 15.4.3 Les ambiguïtés : le système tente de les lever en contexte, selon l'environnement et selon les étiquettes présentes (et donc possibles) au lexique pour ce mot. L'étiquetage est contraint par le lexique. Exemples d'étiquetage correct : - de vastes étendues/SBC:pl de terre crayeuse - des nouvelles/SBC:pl intéressantes - des tempêtes de rire/SBC:sg 16.- LES VERBES : 16.1 Une différenciation est faite, en ce qui concerne les verbes auxiliaires de temps et de voix, et les verbes pleins. Les verbes porteurs de modalités (« modaux ») ne sont pas distingués des autres et sont considérés comme verbes pleins.. 16.2 Le code, bien que "global" pour le système, peut être vu de façon analytique : position 1: A = verbe "avoir" (auxiliaire ou non) E = verbe "être" (auxiliaire ou non) V = tous les autres verbes. positions 2 et 3 : CJ = forme conjuguée PAR= forme participe passé NC = forme non conjuguée, avec position 4 et 5 : NT = gérondif ou p.présent FF = infinitif et, à droite du séparateur ":", le Nombre grammatical : sg ou pl pos 1 A E V A E V pos2 et 3 CJ PAR pos 4et5 NC FF NT 19 Nbre gramm. :sg :pl 16.3 Les formes conjuguées : La notation CJ neutralise totalement les indications de "temps", de "mode" et de "personne". Exemples : - ils retombaient/VCJ:pl - elle l' aura/ACJ:sg voulu/VPAR:sg - ils sont/ECJ:pl partis/ADJ1PAR:pl 16.4 Les formes non-conjuguées : - infinitifs On notera NCFF les verbes non conjugués, au mode infinitif. Exemple : - sans vouloir/VNCFF aller/VNCFF le dénoncer/VNCFF - sans avoir/ANCFF pu/VPAR:sg y aller/VNCFF - formes en -« ant » On notera NCNT les éléments verbaux non conjugués terminés par "ant", qu'ils soient gérondifs (derrière en/PREP) ou participes présents verbaux. Exemples : - il dicta des dépêches, télégraphiant/VNCNT de tous côtés - ils restèrent muets , n' osant/VNCNT plus remuer . - .. continua *Levaque en/PREP jetant/VNCNT un regard .. - n' ayant/ANCNT aucune idée de tout cela - n' ayant/ANCNT pas voulu cela - étant/ENCNT concerné par ce problème ... Rappel : les adjectifs qualificatifs en -ant ne sont pas étiquetés ANT mais ADJ. Exemple : - un bourdonnement d'abeilles, mouvant/ADJ:sg rideau ... 16.5- Les Participes Passés verbaux (voir aussi "PARTICIPES" au §7 supra) On notera VPAR les participes passés contigus linéairement ou presque à une forme du verbe "avoir". Ce sont les seuls qui sont considérés comme verbaux, derrière "avoir", auxiliaire de "temps". (On notera ADJ1PAR les participes passés contigus ou presque à une forme du verbe "être". Ils sont considérés comme plutôt "adjectivaux", passifs possibles ou non. On notera ADJ2PAR tous les autres participes passés, en contextes nominaux, ou ambigus, ou bizarres, ou trop éloignés de leur "auxiliaire".) Exemples : - ils avaient tous mis/VPAR:pl un terme à cette histoire. - elle était accompagnée/ADJ1PAR:sg de Bouteloup - nous nous étions tous levés/ADJ1PAR:pl mais aussi : - il resta surpris/ADJ2PAR:sg - se trouvait exempté/ADJ2PAR:sg - il dormait assis/ADJ2PAR:sg - des enfants dépeignés/ADJ2PAR:pl - sont restés/ADJ1PAR:pl enfermés/ADJ2PAR:pl 16.6- Les ambiguïtés existent avec d'autres catégories morpho-syntaxiques et sont résolues en contexe. Exemples : verbe conjugué/ adjectif : plaisante, continue, ... verbe conjugué/ substantif : manque, tâche, filons, ... verbe conjugué/ participe passé : assombris, grandis infinitif/ substantif : lever, dîner, rire, boucher etc. 20 17.-LE RÉSIDU : ABR, FGW, SYM Le résidu concerne des mots que nous avons éprouvé quelque difficulté à classer dans ces catégories. Nous avons essayé de créer des étiquettes supplémentaires, telles que pour -LES ABRÉVIATIONS : ABR Exemples : p. pp. chap. -LES MOTS ÉTRANGERS : FGW Exemples : quarto, rauchen, book -LES SYMBOLES : SYM Exemples : º $ % + x Mais, pour le moment, ces étiquettes sont très peu productives, et génèrent finalement plus d'inconvénients que d'avantages dans la cohérence de la codification. Elles ne sont pas prises en compte par des règles, mais sont seulement présentes pour caractériser des occurrences au lexique. CONCLUSION : Nous avons là un ensemble d'étiquettes relativement restreint qui rend compte des grandes classes grammaticales ayant en contexte un comportement spécifique. Trop entrer dans les détails de sous-spécification amoindrirait la performance du système : il ne faut pas perdre de vue que c'est un système probabiliste, et qu'il apprend lui-même les règles de codage. Trop de surspécification ou de sous-spécification reviendrait à la limite, à avoir autant de cas particuliers que d'occurrences, d'où une impossibilité à retrouver les régularités attendues. 21 Chapitre 4 Ré-Apprentissages pour Brill14-JL5 / WINBRILL-0.3 1. GÉNÉRALITÉS Nous ne reviendrons pas ici sur la description de la version BRILL-1.14 et son expérimentation pour l’anglais. Chaque personne intéressée peut se procurer cette version librement par « ftp-anonyme », et l’utiliser moyennant le respect du Copyright d’Eric BRILL. Il suffit ensuite de se référer aux différents fichiers README d’Eric BRILL pour avoir la marche à suivre. Nous parlons ci-dessous du ré-apprentissage pour le français à l’INaLF. A partir d’un fichier échantillon manuellement étiqueté, le système crée sa Base de Connaissances. Parmi les fichiers créés, quatre serviront de paramètres dans la commande d’étiquetage. Ce sont : 1.1 Le LEXIQUE : il contient une liste de mots (une entrée par ligne), chacun de ces mots associé à une liste de codes. Les codes peuvent contenir n’importe quel caractère sauf l’espace, ce dernier servant de séparateur. Le premier de ces codes est « le plus probable ». Ceux qui suivent sont des codes « qui ont été rencontrés », et ils figurent là dans le désordre. Donc, seule la place du premier est pertinente.. En regardant les programmes d’un peu plus près, il semble que la taille maximale du Lexique soit limitée à 100000, la taille du mot à 100, et la taille maximale d’une étiquette à 20. Exemples du Lexique français : réduit bon_gré_,_mal_gré répondant actives indiquent cette_fois_-_ci énonça *Catherine VCJ:sg SBC:sg ADJ1PAR:sg VPAR:sg ADJ2PAR:sg ADV VNCNT SBC:sg ADJ:pl VCJ:pl ADV VCJ:sg SBP:sg 1.2 Le fichier des RÈGLES LEXICALES : il contient une liste de règles spécifiant les transformations à effectuer sur la catégorie grammaticale affectée par défaut aux mots inconnus. Exemples de règles lexicales : SBC:pl nous fgoodright VCJ:pl 154.4 avait goodright VPAR:sg 137.659127089446 SBC:pl ais fhassuf 3 VCJ:sg 122.65 SBC:pl és fhassuf 2 ADJ2PAR:pl 119.604761904762 SBC:sg ai fhassuf 2 VCJ:sg 114 SBC:sg e fdeletesuf 1 ADJ:sg 111.458706750157 du goodright SBC:sg 106.678005154052 ées hassuf 3 ADJ2PAR:pl 103.088888888889 SBC:sg ir fhassuf 2 VNCFF 99.5673307005528 NN é fchar ADJ2PAR:sg 90.6047619047619 Nous y reviendrons plus loin. Les Règles lexicales sont appelées pour chaque mot inconnu, dans l’ordre de leur présentation, qui n’est pas arbitraire : le système les a rangées en fonction de leur score. Plusieurs peuvent s’appliquer successivement sur les résultats des transformations précédentes. Si le mot inconnu est peu fréquent et n’est pas pris en compte par une ou plusieurs des règles de ce fichier, alors il garde son étiquette par défaut. 22 1.3 Le fichier des RÈGLES CONTEXTUELLES : il contient les modèles de transformations contextuels qui vont servir à affiner l’étiquetage en contexte. Ces règles prennent en compte les catégories affectées aux mots du texte, telles qu’elles sont au moment de l’appel de la règle ; et dans une fenêtre de taille maximale égale à 6. Il s’agit donc d’un travail en contexte « local » assez réduit. Dans cette fenêtre, les éléments pris en compte peuvent être, soit des étiquettes Parties du Discours, soit des mots. Exemples de règles contextuelles : DTN:sg PRV:sg NEXTTAG VCJ:sg PRV:sg PRV:pl NEXT1OR2TAG VCJ:pl ADJ2PAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg SBC:sg ADJ:sg PREVTAG SBC:sg PRV:sg PRO:sg WDPREVTAG PREP elle VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg DTN:sg PRO:sg NEXTTAG REL SBC:sg VCJ:sg PREV1OR2TAG PRV:sg ADJ2PAR:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg SUB$ SUB WDPREVTAG PREP que Nous y reviendrons plus loin. 1.4 Le fichier de BIGRAMMES (= paires de mots adjacents) est un fichier qui intervient dans le traitement des mots inconnus. Il contient la liste de toutes les paires de mots repérées dans le corpus à étiqueter. Il peut être augmenté suivant les besoins, au fur et à mesure que du texte brut non codé est disponible. Exemples d’entrées du fichier Bigrammes : presque bleu résultait qu' constaté que bêtes s' aux souris au 30 cela nous 2. APPRENTISSAGE à l’INaLF Nous parlons ici du ré-apprentissage pour le français à l’INaLF, que nous avons effectué en suivant le mode d’emploi figurant dans ces fichiers README. Nous ne sommes pas intervenus dans les programmes écrits par E.BRILL, même pas pour changer les étiquettes prévues « par défaut » : NN (nom commun singulier) et NNP (nom propre singulier). Il arrive que ces étiquettes apparaissent dans les résultats d’étiquetage, lorsque le système n’a pas réussi à trouver dans « sa » Base-de Connaissances les règles adéquates pour traiter les unités correspondantes. L’utilisateur qui souhaite changer ces étiquettes peut le faire en se référant au « README.TRAINING » d’Eric Brill, et en gérant un nouvel apprentissage des règles. Nous avons, de plus, une difficulté, non encore résolue, à faire tourner la troisième phase de l’étiquetage, appelée N-BEST. 2.1.Rôle de l’humain : L’informaticien a eu pour rôle de rapatrier la version Unix par « ftp-anonyme » Les problèmes d’installation ont été relativement réduits. Le « portage » vers Windows95 a demandé beaucoup plus de temps et d’énergie. Le linguiste a eu pour rôle de créer et/ou faire créer par le système les différents fichiers paramètres nécessaires. : Les fichiers README de BRILL étaient heureusement très clairs et très explicites. Le recours à l’informaticien, pour expliquer certains phénomènes ou impossibilités pendant l’apprentissage a été assez minime. 23 Les deux principales tâches du linguiste ont été les suivantes : Mettre au point le jeu d’étiquettes, et étiqueter manuellement le corpus-échantillon à parti duquel le système allait créer sa Base de Connaissances. 2.1.1. Le jeu d’étiquettes : Pour la dernière version distribuée (BRILL14-JL5 / WinBrill-0.3), le jeu d’étiquettes est celui décrit dans les pages précédentes. (chapitre 2 et chapitre3) Ce jeu d’étiquettes a subi plusieurs modifications avant d’arriver à son état actuel. Chaque modification a impliqué une révision totale du corpus-échantillon. Ce dernier a lui-même évolué en taille, au fil du temps. 2.1.2. Le corpus-échantillon qui a été utilisé contient 417370 occurrences et a les caractéristiques suivantes : C’est un fichier non distribuable, car il contient des morceaux de textes sous droits d’auteurs ou d’éditeurs, tirés des bases Frantext, Scitech ou autres : Balzac, Honoré.de Lhote, Jean Romilly, Jacqueline de Victor, Paul-Emile César Birotteau La Communale La Montagne Sainte-Victoire Boréal 3008 occurrences 3010 occurrences 3005 occurrences 3005 occurrences Zola, Emile Leroux, Gaston Gyp Dumas, Alexandre Sue, Eugène Foch, Maréchal Brillat-Savarin Karr, Alphonse Constant, Benjamin Sainte-Beuve Flaubert, Gustave Janin, J. Broussais Germinal, 1°partie (Frantext, L465) Le Mystère de la Chambre Jaune (Frantext, L782) Souvenirs d’une Petite Fille (Frantext L269) La Dame aux Camélias (Frantext L834) Atar-Gull (Frantext, M279) Mémoires (Frantext L243) Physiologie du goût (Frantext M362) Sous les Tilleuls (Frantext M384) Le Cahier Rouge (Frantext M386) Volupté (Frantext M652) Smarh (Frantext M736) Ane mort et Femme guillotinée (Frantext M784) Cours de Phrénologie (Frantext P938) Pelt, Jean-Marie Tour du Monde d’un écologiste (Scitech,T017) Purves ; Orian ; Heller Biologie Animale (Scitech T022) Jouventin, Pierre nouv. science biol. : l’écologie ..(Scitech T025) ainsi qu’un fichier de définitions géologiques (systèmes d’érosion) 115004 occurrences 55897 occurrences 54099 occurrences 78711 occurrences 4781 occurrences 4822 occurrences 4431 occurrences 4692 occurrences 4325 occurrences 4404 occurrences 4534 occurrences 4479 occurrences 4336 occurrences 16313 occurrences 36120 occurrences 6197 occurrences 2445 occurrences Ces textes ont été mis aux normes BRILL minimales, c’est-à-dire les ponctuations décollées, et une phrase par ligne. A chacun des mots de ces textes une étiquette de Partie du Discours a été associée, en contexte, selon les critères définis précédemment au chapitre 3. 2.2) Rôle de l’outil informatique : A partir du corpus-échantillon, le système crée sa propre « Base de Connaissance », sous la forme d’un certain nombre de fichiers, qui sont différentes types de listes (associations de mots, de mots + étiquettes, mots + étiquettes + fréquences). Il suffit à l’humain de lancer les commandes adéquates qui sont indiquées dans les fichiers README d’E.BRILL. L’apprentissage se fait en deux phases : 2.2.1-Première phase : Apprentissage des Règles pour prédire le code le plus probable pour les mots inconnus 24 Ce module d’apprentissage utilise la première moitié du corpus manuellement codé, ainsi que tout le texte non codé disponible (Le texte non codé devra inclure la totalité du corpus manuellement étiqueté (les deux moitiés) dont on aura ôté les codes). Appelons TGDref-entier le corpus échantillon manuellement étiqueté Sont créés les fichiers suivants : UNTGDref-entier : son correspondant non-étiqueté TGD1 : la première moitié du corpus échantillon étiqueté TGD2 : la seconde moitié du corpus échantillon étiqueté BIGWORDLIST : la liste de tous les mots apparaissant dans UNTGDref-entier BIGRAMLIST : la liste de toutes les paires de mots apparaissant dans UNTGDrefentier SMALLWDTGDLIST la liste des associations [mot code fréquence], donnant le nombre de fois qu’un mot apparaît avec un même code dans le corpus TGD1. Une fois ces fichiers créés, on peut lancer la commande d’apprentissage des règles, qui est de la forme : unknown-lexical-learn.prl BIGWORDLIST SMALLWDTGDLIST BIGRAMLIST 300 LEXRULEFILE dans laquelle BIGWORDLIST SMALLWDTGDLIST BIGRAMLIST sont les fichiers créés ci-dessus, et LEXRULEFILE le nom du fichier où viendront se ranger les règles apprises. Le nombre 300 est destiné à améliorer l’efficacité, signifiant au système de n’utiliser le contexte fourni par les bigrammes que lorsque l’un des deux mots fait partie des 300 mots les plus fréquents. Voici un extrait du fichier LEXRULEFILE obtenu : NN é fchar ADJ2PAR:sg 90.6047619047619 1 char CAR 80.3619047619048 des goodright SBC:pl 78.3901889207833 SBC:sg est fgoodright ADJ:sg 71.3203621248091 SBC:pl plus fgoodright ADJ:pl 68.7188259158072 NN t fchar VCJ:sg 63.0384615384615 une goodright SBC:sg 59.1383656752863 Les entiers réels qui apparaissent dans le dernier champ de la règle sont les scores obtenus pour cette règle. Les opérateurs utilisés sont les suivants : deletepref / deletesuf addpref / addsuf haspref / hassuf goodleft / goodright char fdeletepref /fdeletesuf faddpref /faddsuf fhaspref /fhassuf fgoodleft / fgoodright fchar Ce sont principalement des opérateurs qui peuvent atteindre une partie du mot considéré, le préfixe (haspref, fhaspref ; deletepref, fdeletepref ; addpref, faddpref)ou le suffixe (hassuf, fhassuf ; deletesuf, fdeletesuf ; addsuf, faddsuf) ou un caractère à l’intérieur du mot (char, fchar), ainsi que des opérateurs permettant d’atteindre le mot immédiatement contigu linéairement, sur la gauche (goodleft, fgoodleft) ou sur la droite (goodright , fgoodright) Les règles comportant « f » sont plus restrictives : Elles s’appliquent seulement s’il y a, en plus, concordance d’étiquette sur le mot considéré, alors que sans le « f » elles s’appliquent quelle que soit l’étiquette. Pour différencier « goodright » et « fgoodright », on pourrait dire que le premier réfère à une position par rapport à un mot, quel que soit l’objet qui se trouve dans cette position ; alors que le second ajoute une contrainte supplémentaire en spécifiant, en plus de la position, une étiquette que doit avoir l’objet à la position concernée. Exemples : goodright / goodleft permet d’atteindre le mot immédiatement à droite ou à gauche. Ex. : une goodright SBC:sg 59.1383656752863 signifie : Tout mot contigu linéairement à une, sur sa droite, est à étiqueter SBC :sg 25 fgoodright /fgoodleft permet aussi d’atteindre le mot immédiatement à droite ou à gauche, mais en posant une condition sur l’étiquette du mot en cours d’examen. Ex. : SBC:sg est fgoodright ADJ:sg 71.3203621248091 signifie : Tout mot inconnu venant d’être étiqueté comme Substantif va voir son étiquette remise en question s’il est à la droite du mot est. Dans ce cas, il devient Adjectif ( SBC :sg => ADJ :sg) 2.2.2-Deuxième phase : Apprentissage des Modèles de transformations contextuelles Une fois les règles Lexicales obtenues, il reste à créer un certain nombre d’autres fichiers : TRAINING.LEXICON le lexique d’entraînement, à partir de tous les textes étiquetés en notre possession, sauf TGD2, car cette portion de texte est réservée à l’apprentissage des règles contextuelles. FINAL.LEXICON le lexique final, qui sera à utiliser dans la commande d’étiquetage. Il est établi à partir de TGDref-entier UNTGD2 la seconde moité du corpus échantillon, dont on a ôté les étiquettes. DUMMY-TGD2 il s’agit d’un fichier de travail, fait sur UNTGD2 en utilisant le résultat de la première phase de l’apprentissage (Start State Tagger). Le résultat est un fichier étiqueté par comparaison avec le lexique et utilisation des règles lexicales. Le système va apprendre les règles contextuelles en comparant ce fichier DUMMY-TGD2 et le fichier TGD2 étiqueté manuellement. Ensuite, on lance la commande d’apprentissage des règles contextuelles, qui a la forme : contextual-rule-learn TGD2 DUMMY-TGD2 CTXRULEFILE TRAINING.LEXICON dans laquelle CTXRULEFILE est le nom du fichier où viendront se ranger les modèles de transformations appris par le système. Voici des exemples de la grammaire obtenue : DTN:sg PRO:sg NEXTTAG SUB$ DTN:sg PRV:sg NEXT1OR2TAG VNCFF ADJ2PAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg SBC:sg ADJ:sg PREVTAG SBC:sg DTN:pl PRV:pl LBIGRAM à les ADJ:sg PRO:sg WDAND2AFT autre STAART PRV:sg PRO:sg WDAND2BFR STAART moi PREP DTN:pl WDAND2TAGAFT De SBC:pl Il n’apparaît plus d’entiers réels indiquant le score obtenu, mais les règles sont toujours rangées en fonction du score obtenu (Les scores sont visibles à l’écran lorsqu’on suit l’apprentissage). Les différents opérateurs utilisés dans cette grammaire sont les suivants : PREVTAG / NEXTAG PREV1OR2TAG / NEXT1OR2TAG PREV1OR2OR3TAG PREVBIGRAM / NEXTBIGRAM SURROUNDTAG PREVWD /NEXTWD PREV2WD / NEXT2WD PREV1OR2WD / NEXT1OR2WD RBIGRAM / LBIGRAM CURWD WDPREVTAG / WDNEXTTAG WDAND2BFR/ WDAND2AFT WDAND2TAGBFR / WDAND2TAGAFT 26 Certains de ces opérateurs opèrent sur des étiquettes, prises dans leur globalité (non atteignables position par position), d’autres sur des mots, d’autres sont mixtes. Par exemple : PREVTAG , NEXTTAG font appel à l’étiquette précédente ou suivante) DTN:pl PRO:pl NEXTTAG VCJ:pl PREV1OR2OR3TAG interroge sur l’une des trois étiquettes précédentes ADJ:pl ADJ1PAR:pl PREV1OR2OR3TAG ECJ:pl PREV2WD interroge sur l’un des deux mots précédents SBC:sg VCJ:sg PREV1OR2WD n' PREVBIGRAM considère la paire de codes formée par les étiquettes des deux mots précédents. SBC:sg VCJ:sg PREVBIGRAM DTN:sg SBC:sg LBIGRAM considère la paire de mots formée par le mot en question et le mot précédent DTN:sg PRV:sg LBIGRAM de le CURWD considère le mot courant. SBC:sg ADV CURWD si SURROUNDTAG considère les deux étiquettes entourant l’étiquette en cours d’évaluation. ECJ:sg SBC:sg SURROUNDTAG DTN:sg PREP WDNEXTTAG considère le mot et l’étiquette suivante (MOTen cours et TAG suivant PRO:sg SUB$ WDNEXTTAG Qu' PRV:sg WDAND2AFT considère le mot en cours d’examen et le deuxième mot suivant ADJ:sg PRO:sg WDAND2AFT autre STAART WDAND2TAGBFR considère le mot en cours et la deuxième étiquette précédente ACJ:pl SBC:pl WDAND2TAGBFR PREP avions WDAND2TAGAFT considère le mot en cours et la deuxième étiquette suivante PREP DTN:pl WDAND2TAGAFT De SBC:pl [Le mot en cours d’examen est De. Son étiquette PREP est à transformer en DTN :pl (article pluriel) si le deuxième mot sur sa droite est étiqueté SBC :pl (Substantif pluriel)]. Une fois ce fichier de règles contextuelles fourni par le système, le système a tout ce qu’il lui faut pour projeter sur un nouveau texte, les connaissances acquises sur le corpus échantillon manuellement étiqueté. NOTE : Une troisième phase, le mode N-BEST est théoriquement prévue : Le code pour l’apprentissage et l’étiquetage dans le mode n-best est fourni avec cette version BRILL-1.14, comme elle l’était déjà dans la version 1.10., mais toujours en « pré-version ». Nous n’avons pas pu la tester. 27 Chapitre 5 BRILL14-JL5 : Mode d’emploi à l’INaLF 1. APPEL DU TEXTE 1.1 Un texte FRANTEXT ne peut être appelé que sous Unix, par la procédure Desbas Il est impossible d’appeler directement un texte Frantext sur le PC Windows95. Donc, on l’appelle sous Unix, puis on doit le transférer après les pré-traitements, par Ftp. 1.2 Tout autre texte peut être saisi et /ou ouvert sous Windows95. Mais les pré-traitements ne se font que sous Unix. Donc il y a intérêt à passer par la phase Unix avant de transférer par Ftp 2. PRÉ-TRAITEMENT DU TEXTE Il s’agit de la mise aux normes préconisée par E.Brill lui même dans ses fichiers « Readme » Il ne faut pas perdre de vue que ces pré-traitements modifient le format initial du texte: On perd les paragraphes, lignes blanches, et retraits divers. On perd les notions d’ « italique » ou de « gras ». On perd les balises textuelles, et on risque de perdre de vue un certain nombre d’unités complexes telles que enseignes de restaurants, titres de films ou de journaux, noms de compagnies théâtrales. C’est pourquoi nous ne pensons pas à un pré-traitement universel global, valable pour tous dans tous les cas, et figé dans une boîte noire. Différents utilisateurs nous ont dit préférer faire eux-mêmes ce pré-traitement en fonction de leurs besoins spécifiques. Pour nous , à l’INaLF, des programmes de pré-traitement ont été écrits par Nabil Hathout, et voici comment nous faisons ces pré-traitements : 2.1 : Vérification que le texte est en iso. Ceci implique que tous les textes Frantext, en ibm850 doivent passer par la procédure « recode ibm850 :latin1 » 2.2 : Décollement des ponctuations et/ou prise en compte d’éventuelles balises textuelles. Pour les textes Frantext, ceci veut dire passage par un traitement spécifique avec un programme « frantext.sh ». Pour les textes de la base Scitech, nous utilisons un autre programme spécifique « scitech.sh » etc... Pour les autres textes, nous prenons en compte seulement les ponctuations. ... Dans tous les cas, une relecture manuelle est nécessaire pour traiter certains oublis des programmes. 2.3 :Prise en compte des mots composés : A l’INaLF, nous avons décidé de tenir compte des mots composés figés ou de certaines associations de termes fréquentes. Un pré-traitement est donc nécessaire pour les reconnaître en contexte. Il est fondé sur la consultation d’un lexique spécifique où sont recensées ces expressions. Le programme reconnaît ces expressions, et modifie le texte en conséquence : les différents constituants de ces expressions sont reliés par le caractère « souligné ». Toutes ces expressions ont été ajoutées, sous cette forme, au lexique final utilisé ultérieurement dans la commande d’étiquetage. Le lexique de termes composés contient un peu plus de 21000 entrées. 2.4 : Prise en compte de Majuscules : Le catégoriseur de BRILL est sensible aux majuscules / minuscules. Si l’on ne veut pas systématiquement doubler ou tripler le lexique pour tenir compte de cette particularité, il faut un pré-traitement : En effet, pour le système, les mots tout, Tout, TOUT, sont trois mots différents. Deux programmes sont prévus pour, soit « démajusculiser » seulement la majuscule de début de phrase, soit pour traiter toutes les majuscules à l’initiale d’un mot dans un texte. Reste encore à compléter par une possible « démajusculisation » des mots écrits totalement en capitales, dans les titres par exemple. 28 Si l’on ne passe pas par ces programmes, le système, par défaut, assignera au mieux une étiquette de nom propre (SBP:sg) à tous les mots à majuscules, au pire le fera passer par le traitement des mots inconnus ce qui amènera des étiquettes risquant fort d’être aberrantes. Ce pré-traitement concernant les majuscules, implique une modification du texte d’origine. Mais cette modification peut être annulée après l’étiquetage, en utilisant un post-traitement inverse 3. ÉTIQUETAGE 3.1. GENERALITES 3.1.1. Lorsqu’on lance la commande d’étiquetage sur un texte à étiqueter, le système commence par lire le texte. Par comparaison avec le lexique, il affecte à chaque mot son code le plus probable. Pour les mots inconnus, il affecte une des deux étiquetes « par défaut » prévues par programme : NNP si lemot commence par une majuscule, et NN dans tous les autres cas. Cette affectation du code par défaut déclenche l’appel des Règles Lexicales destinées à affiner l’étiquetage des mots inconnus. Pour chaque mot inconnu (resté NN ou NNP),chacune des règles lexicales est essayée, appliquée si les conditions sont remplies. Toutes sont essayées, successivement, et prennent en compte le résultat précédemment acquis. Si le fichier contient 301 règles, chaque mot inconnu se verra essayer les 301 règles. A la fin de cette étape, il peut rester des codes par défaut, car il se peut que le système, dans son apprentissage sur le corpus échantillon, n’ait pas rencontré un tel contexte, et n’ait donc pas pu déduire de règle de levée d’ambiguïté. 3.1.2. Le système revient sur l’étiquetage précédemment effectué, et applique systématiquement des modèles de transformations contextuels, dans le but d’affiner l’étiquetage. Ces règles ne doivent pas être confondues avec des règles de « parsage ». Elles prennent en compte les catégories affectées aux mots du texte, telles qu’elles sont au moment de l’appel de la règle ; et dans un contexte « local » assez réduit. Dans ce fichier, les règles sont rangées par scores décroissants et chaque règle est appelée pour chaque mot. Lorsque l’étiquetage est terminé, le texte a la forme suivante : La/DTN:sg pédagogie/SBC:sg est/ECJ:sg une/DTN:sg oeuvre/SBC:sg de/PREP coordination/SBC:sg et/COO de/PREP rapports/SBC:pl ;/; ne/ADV doit/VCJ:sg -/- elle/PRV:sg pas/ADV être/ENCFF considérée/ADJ1PAR:sg comme/SUB une/DTN:sg sorte/SBC:sg de/PREP philosophie/SBC:sg embrassant/VNCNT dans/PREP une/DTN:sg vue/SBC:sg d'/PREP ensemble/SBC:sg ce/PRO:sg qui/REL contribue/VCJ:sg à/PREP la/DTN:sg formation/SBC:sg de/PREP l'/DTN:sg esprit/SBC:sg ?/? La/DTN:sg géographie/SBC:sg est/ECJ:sg tenue/ADJ1PAR:sg de/PREP puiser/VNCFF aux/DTC:pl mêmes/ADJ:pl sources/SBC:pl de/PREP faits/ADJ2PAR:pl que/SUB$ la/DTN:sg géologie/SBC:sg ,/, la/DTN:sg physique/SBC:sg ,/, les/DTN:pl sciences/SBC:pl naturelles/ADJ:pl et/COO ,/, à/PREP certains/DTN:pl égards/SBC:pl ,/, les/DTN:pl sciences/SBC:pl sociologiques/ADJ:pl ./. Elle/PRV:sg se/PRV:sg sert/VCJ:sg de/PREP notions/SBC:pl dont/REL quelques_-_unes/PRO:pl sont/ECJ:pl l'/DTN:sg objet/SBC:sg d'/PREP études/SBC:pl approfondies/ADJ2PAR:pl dans/PREP des/DTN:pl sciences/SBC:pl voisines/ADJ:pl ./. De/PREP là/ADV vient/VCJ:sg ,/, pour/PREP le/PRV:sg dire/VNCFF en/PREP passant/VNCNT ,/, le/DTN:sg reproche/SBC:sg qui/REL lui/PRV:sg est/ECJ:sg parfois/ADV adressé/ADJ1PAR:sg de/PREP vivre/VNCFF d'/PREP emprunts/SBC:pl ,/, d'/PREP intervenir/VNCFF indiscrètement/ADV dans/PREP le/DTN:sg champ/SBC:sg d'/PREP autrui/PRO:sg ,/, comme/SUB s'/SUB il/PRV:sg y/PRV:++ avait/ACJ:sg des/DTN:pl compartiments/SBC:pl réservés/ADJ2PAR:pl dans/PREP le/DTN:sg domaine/SBC:sg de/PREP la/DTN:sg science/SBC:sg ./. 3.2. MODALITÉS INaLF 29 3.2.1 :L’étiquetage peut se faire sous UNIX ou sous Windows95, une fois que les fichiers y ont été transférés. 3.2.1.1 : Etiquetage sous UNIX La commande d’étiquetage utilise en tant que paramètres, quatre des fichiers qu’il a pu apprendre lui-même, sous UNIX, à partir du fichier échantillon manuellement codé à l’aide des Parties de Discours retenues pour ce projet. Ces fichiers peuvent être utilisés tels quels, ou bien revus par l’humain et « améliorés » au regard des résultats d’étiquetage obtenus sur différents textes. C’est ce qui se passe pour l’utilisation qui en est faite à l’INaLF : Les fichiers de règles ont été chacun retouchés et augmentés, et le lexique appris par le système remplacé par un autre, de taille beaucoup plus importante. L’étiquetage peut être suivi du post-traitement concernant les majuscules / minuscules 3.2.1.2 : Etiquetage sous Windows95 La commande d’étiquetage utilise en tant que paramètres, quatre des fichiers qu’il a pu apprendre lui-même, sous UNIX puis transférés, ou directement sous Windows95 (il reste juste un problème à régler pour le fichier de règles contextuelles, non appris sous Windows pour le moment) En fait, l’apprentissage sous Windows n’étant pas « complet », nous avons importé les fichiers UNIX par Ftp. L’étiquetage se fait avec WinBrill-0.3. Cet étiquetage WinBrill-0.3 peut être suivi de lemmatisation. 3.2.2 : Les quatre fichiers-paramètres actuellement utilisés sont les suivants : 3.2.2.1 :La liste de « Bigrammes » apprises par le système. Exemples : enfants incapables âgée que armée avait de race pige à comme tant 3.2.2.2 :La liste de « Règles Lexicales », apprises par le système, puis revue et augmentée. (actuellement :342 règles ) Exemples : les 13 premières règles du fichier : e char SBC:sg 2904.47563601746 s hassuf 1 SBC:pl 1886.94262577434 it hassuf 2 VCJ:sg 983.930470192473 nt hassuf 2 VCJ:pl 687.710506160506 er hassuf 2 VNCFF 674.779828095881 NN i fchar SBC:sg 610.543031204011 * char SBP:sg 598 a hassuf 1 VCJ:sg 459 VCJ:pl ant fhassuf 3 VNCNT 414.52742248062 ment hassuf 4 ADV 323 un goodright SBC:sg 316.84875643057 je goodright VCJ:sg 313.386615439306 SBC:sg ez fhassuf 2 VCJ:pl 259 3.2.2.3 :La liste de « Règles Contextuelles », apprise par le système, puis revue et augmentée. (Actuellement : 654 règles) Exemples de règles : PRV:++ PREP WDNEXTTAG en ADJ:sg SBC:pl ADJ:pl PREV1OR2TAG SBC:pl PRO:sg PRV:sg PREVTAG DTN:sg PRV:sg NEXTTAG ACJ:sg PRV:sg PRO:sg WDPREVTAG PREP elle VPAR:sg ADJ1PAR:sg PREV1OR2OR3TAG ECJ:sg 30 DTN:pl PRV:pl LBIGRAM à les SUB$ SUB PREVTAG PREP VCJ:sg VPAR:sg PREV1OR2OR3TAG ACJ:sg ADJ:sg SBC:sg SURROUNDTAG DTN:sg PREP 3.2.2.4 :Le « Lexique » utilisé est un lexique « maison », fondé au tout début sur le lexique INaLF/TLFnome95, puis profondément remanié et augmenté en fonction des besoins spécifiques du catégoriseur et des textes à étiqueter. Il contient actuellement 440544 entrées,alors que le lexique appris par le système en contenait un peu plus de 25000. En effet, le lexique « auto-appris » par le système a vite montré ses limites dès que nous avons tenté d’utiliser le catégoriseur sur d’autres types de corpus. D’autre part, le Lexique INaLF TLFnome95 est très centré sur la base de textes littéraires FRANTEXT. Le Lexique actuel est un compromis entre la richesse de la Langue quant au nombre des entrées y figurant (simples ou composées) et les possibilités du logiciel à les prendre en compte. Il est constamment en train d’évoluer en fonction des corpus traités et des outils de prétraitement des textes que l’INaLF est en train de mettre au point. Chaque « entrée » du lexique contient l’occurrence telle qu’en contexte, dans sa forme fléchie et/ou accordée, et la description lexicale qui lui est associée. Cette description lexicale peut être une seule étiquette non ambiguë, ou une suite d’étiquettes. Dans ce cas, le système donne priorité à la première dans son travail de catégorisation. En effet, elle est censée être la plus fréquente. Mais attention : le lexique ne donne pas toutes les étiquette possibles pour un mot donné. Le lexique Brill « autoappris » ne recense que les emplois effectivement rencontrés en contexte. Le lexique actuellement utilisé a gardé un peu cette philosophie en ce sens que nous avons choisi de réduire les ambiguïtés. Par exemple, le mot rocher est théoriquement possible comme verbe infinitif. Poser cette ambiguité n’est absolument pas rentable : en terme de performances du système, il vaut mieux avoir une erreur les rares fois où il est effectivement verbe, que des erreurs fréquentes chaque fois qu’il est substantif. Pour tenir compte des différentes graphies possibles pour un même mot, il contient des entrées de la forme : quartèrent VCJ:pl quarté SBC:sg ADJ2PAR:sg VPAR:sg quartée ADJ2PAR:sg quartées ADJ2PAR:pl quartés SBC:pl ADJ2PAR:pl quasar SBC:sg quasars SBC:pl quasi ADV SBC:sg quasi-asphyxiques ADJ:pl quasi-certitude SBC:sg quasi_-_asphyxiques ADJ:pl quasi_-_certitude SBC:sg à_grand'_peine ADV à_grand'peine ADV à_grand-peine ADV à_grand_-_peine ADV 4. LES POST-TRAITEMENTS 4.1. Le toilettage du texte Sous Unix : Il s’agit essentiellement du toilettage majuscules/minuscules avec restitution du format initial du texte en ce qui concerne cette question Sous Windows95 : On ne peut restituer sous Windows quelque chose qui a été modifié sous UNIX. Si, sous UNIX on a pré-traité les majuscules/minuscules, on ne peut pas opérer de restitution du format initial. 31 4.2. Le lemmatiseur FLEMM Il existe un « plus » sous Windows95 : le catégoriseur WinBrill-0.3 a été couplé avec le lemmatiseur FLEMM de Fiammetta Namer. Ce lemmatiseur opère à partir des résultats obtenus par WinBrill-0.3. 32 Index Abréviation Adjectif Adverbe adverbialisé ambiguïtés article avoir beaucoup Cardinaux chiffres comme comparatif conjonction conjugué contractés Coordonnant de déictiques démonstratifs des Déterminants du Etrangers (mots) être gérondif homonymie indéfini infinitif Interjection interrogatifs l’on modaux négation nom nom complexe nom commun nom propre numéraux onomatopée ordinaux Participes passés participes présents Particules partitifs personnels peu Ponctuations possessif prédéterminants Préfixes Prépositions voir §17 voir §1 voir §2 Adjectifs (§1.7 voir Adjectif (§1.6) voir Adjectifs (§1.8) Adverbes (§ Substantifs (§15.4.3) .. Verbes (§16.6 voir Déterminants (§5) voir Verbes (§16.1, 16.2) voir Adverbes (§2.5) voir §3 voir Cardinaux (§3) voir Subordonnants (§14.3) voir Adjectifs (§1.3), Adverbes (§2.3) voir Coordonnants (§4), Subordonnants (§14) voir Verbe (§16) voir Adjectifs (§1.5, Déterminants (§5) voir §4 voir Déterminants (§5.4) voir Adverbes (§2.4), Prépositions (§11.5) voir Déterminant (§5.3), Pronoms (12.3b) voir Déterminants (§5.4) voir §5 voir Déterminants (§5.4) voir Résidu (§17) voir Verbes (§16.1, 16.2) voir Verbes (§16.4) voir Substantifs (§15.4.2) voir Adjectif (§ 1.2), Déterminants (§5.3, 5.6) , Pronoms (§12.3b) voir Verbes (§16.4) voir §6 voir Pronoms (§12.3b) voir Déterminants (§5.8) voir Verbes (§16.1) voir Adverbes (§2.1) voir Substantifs (§15) voir Substantifs (§15.4.1) voir Substantifs (§15.2) voir Substantifs (§15.3) voir Cardinaux (§3) voir Interjections (§6) voir Adjectifs (§1.2) voir §7 et voir Verbe (§16.5) voir Verbes (§16.4) voir §8 voir Déterminants (§5.4) voir Pronoms (§12.3a, 12.3b) voir Adverbe (§2.5) voir §9 voir Adjectifs (§1.2), Déterminants (§5.3) Pronoms (§12.3b) voir Adverbes (§2.2), Déterminants (§5.5 voir §10 voir §11 33 Pronoms qualificatif que Relatif rien Subordonnant Substantif substantivé superlatif Symbole signe mathématique -t-on tout un, une voir §12 voir Adjectifs (§ voir Subordonnants (§14.3) voir §13 voir Adverbe (§2.5) voir §14 voir §15 voir Adjectifs (§ voir Adjectifs (§ Adverbes (§ 2.3) voir Résidu (§17) voir Résidu (§17) voir Pronoms (§12.3a), Particules (§8.2) voir Déterminants (§5.9) voir Cardinaux (§3.4) 34 Bibliographie BAUDOT, Jean (1992) :Fréquences d’Utilisation des Mots en Français écrit contemporain, Les Presses de l’Université de Montréal, 1992. BRILL, Eric (1994) : Some Advances in Transformation-Based Part-of-Speech Tagging. In Proceedings of the 12th National Conference on Artificial Intelligence (AAAI-94) BRILL, Eric (1993) : A Corpus-Based Approach to Language Learning. A dissertation in Department of Computer and Information Science. Université de Pennsylvanie, Philadelphie, 1993 BRILL, Eric (1993) : Automatic Grammar Induction and Parsing Free Texts : A Transformation-Based Approach, In Proceedings 31st Meeting of the Association of Computational Linguistics, Columbus, 1993 BRILL, Eric (1993) : Transformation-Based Error-Driven Parsing, In Proceedings 3rd International Workshop on Parsing Technologies. Tilburg , 1993 BRILL, Eric (1992) : A Simple Rule-based Part Of Speech Tagger. In Proceedings 3rd Conference on Applied Computational Language (ACL) Processing, Trento, Italy, 1992 BRILL, Eric (1991) : Discovering the Lexical Features of a Language. In Proceedings of the 29th Annual Meeting of the Association for Computational Linguistics, Berkeley, CA, 1991 BRILL, Eric ; MAGERMAN, David ;MARCUS, Mitchell ; SANTORINI, Beatrice (1990) : Deducing Linguistic Structure from the Statistics of a Large Corpora In Proceedings of the DARPA Speech and Natural Language Workshop, June 1990, 275,282. BRILL, Eric ; MARCUS, Mitchell (1992) : Tagging an Unfamiliar Text With Minimal Human Supervision In Proceedings of the Fall Symposium on Probabilistic Approaches to Natural Language, (AAAI-1992) BRILL, Eric ; MARCUS, Mitchell (1992) :Automatically Acquiring Phrase Structure Using Distributional Analysis. DARPA Workshop on Speech and Natural Language, 1992 BRILL, Eric ; RESNIK, Philip (1994) : A rule-Based Approach to Prepositional Phrase attachment Disambuaguation. In Proceedings of the 15th COLING, Tokyo, 1994 CATACH, Nina (1996 ) : La Ponctuation . P.U.F., Que sais-je, 2818 CHANOD, J.P. ; PAPANAINEN, Pasi (1994) : Statistical and Constraint-Based Taggers for French. Technical Report MLTT-016, Rank Xerox Research Centre, Grenoble, France CUTTING,D. ; KUPIEC, J. ; PEDERSEN, J. ; SIBUN, P.(1994) : A Practical Part Of Speech Tagger. In Proceedings 3rd Conference on Applied Natural Language Processing, Trento, Italy, 1992 DE LOUPY, Claude (1995) :La méthode d’étiquetage d’Eric Brill. In T.A.L., 1995, vol.36.1-2, pp.37-46 EJERHED, Eva (1995) :Linguistic and Computational Principles for Tagset Minimization. TALN95, Table Ronde TALN, Marseille, France, 1995. GREVISSE, Maurice (1986) : Le Bon Usage, Grammaire Française. Douzième édition refondue par André Goose. Duculot, 1986 LE GOFFIC, Pierre (1993) : Grammaire de la Phrase française. Hachette, Paris, 1993 MARCUS, Mitchell, ; SANTORINI, B. ; MARCINKIEWICZ, Mary Ann (1993) : Building a LargeAnnotated Corpus of English : the Penn Treebank. In Computational Linguistics, 1993 35 MATHIEU-COLAS, Michel (1994) : Les Mots à Traits d’Union . Problèmes de lexicographie informatique. Paris, Didier Erudition, 1994 PALMER, D.D. ;HEARST, M.A. (1994) : Adaptative Sentence Boundary Disambiguation . Technical Report UCB/CSD 94/797, University of California, Berkeley, Computer Science Division, 1994 RIEGEL, Martin ; PELLAT, J.Christophe ; RIOUL, René (1994) : Grammaire méthodique du Français. Presses Universitaires de France, 1994 SANTORINI, Béatrice (1991) : Part-of-Speech Tagging Guidelines for the Penn Treebank Project . Technical Report MS-CIS-90-47, 1990, Department of Computer and Information Science, University of Pennsylvania, SPRIET, Thiery ; EL-BEZE, Marc (1995) : Etiquetage Probabiliste et Contraintes Syntaxiques. in Actes de TALN95, 115-123, Marseille, France, 1995 A consulter aussi : Actes de TALN95 T.A.L., 1995, vol. 36.1-2 : Traitement probabilistes et Corpus . Revue semestrielle de l’ATALA, Association pour le Traitement des Langues. 36