
Chapitre 1
Présentation générale du catégoriseur d’Eric Brill entraîné à l’INaLF
1. PRÉLIMINAIRES
Un « assignateur de catégories », ou « catégoriseur » est un outil d’étiquetage automatique de textes.
C’est un « annotateur » d’un type un peu particulier, qui permet d’affecter à chaque « mot » (ou à chaque
« terme ») d’un texte, une étiquette représentative de sa catégorie grammaticale, en « langue » ou en « discours ».
Il traite donc de la classe des mots.
Il se distingue d’un « parseur » qui traite des constituants plus larges, syntagmes et propositions, au niveau de la
phrase.
2. POINT DE VUE LINGUISTIQUE
1.a - Fondements linguistiques
Le catégoriseur de Brill est fondé sur les travaux des structuralistes américains (Bloomfiels, 1933 ; Harris,
1946,1951).
E. Brill l’a décrit dans sa thèse , dirigée par Mitchell Marcus, et soutenue à l’Université de Pennsylvanie en 1993
L’idée structuraliste, reprise de Harris et de son contemporain Wells par Brill est la suivante : Il vaut mieux
approcher la description d’une langue sans idée préconçue, et se fonder sur l’observation des faits linguistiques
rencontrés. On pourra ainsi découvrir les morphèmes à partir des phonèmes, les classes de mots à partir des mots,
etc. Par des procédures de classification, on pourra repérer des distinctions significatives, et si, de plus, on utilise
des techniques d’approximation, on arrivera à affiner le repérage.
Dans l’approche de Brill, une fois qu’un « informateur humain » (linguiste de préférence) a étiqueté un petit
texte-échantillon sélectionné au hasard dans un grand corpus à étiqueter, tout l’apprentissage est automatique. Il
n’y a pas de linguiste « de terrain », expert confirmé, qui travaille avec l’informateur et peut fournir une
information « intensionnelle » sur la langue à étudier. Le système utilise une distribution « extensionnelle »,
observée par lui dans le petit échantillon qui vient d’être manuellement annoté.
En plus, cette notion de distribution extensionnelle est, d’une certaine façon, élargie : Au lieu d’examiner
seulement la distribution des entités dans un corpus, une hypothèse dite « naïve » est lancée, concernant la
structure du langage (d’où un ériquetage des mots inconnus selon cette hypothèse), puis une analyse de la
distribution des erreurs est conduite, pour mettre en lumière des transformations à effectuer en vue d’éliminer ou
tout au moins de réduire les erreurs d’étiquetage.
1.b - Fonctionnement de l’étiqueteur
Cet outil de catégorisation peut fonctionner tel quel, si on lui fournit les « arguments » adéquats à faire figurer
dans la commande d’étiquetage (par exemple, si on veut réutiliser des fichiers pré-existants) .
Il est possible aussi de partir de rien, de laisser le système apprendre (selon le mode d’emploi fourni par E. Brill ,
dans un de ses fichiers « README » ) et créer tous les fichiers intermédiaires nécessaires à la bonne exécution
de la commande finale d’étiquetage.
Cet apprentissage se fait en deux étapes.
La première aboutit à la création d’un fichier de règles (dites « lexicales ») destinées à l’étiquetage des mots
inconnus. Elle peut être presqu’entièrement automatique, avec un rôle de l’humain réduit au minimum, c’est-à-
dire au codage du texte échantillon avec un ensemble d’étiquettes de PdeD (PdeD signifie ici « Parties du
Discours ») pré-établi par l’humain ou bien obtenu avec l’aide du système. L’information est ensuite extraite de
ce corpus échantillon étiqueté, par le système, avec les méthodes de l’analyse distributionnelle.
La seconde aboutit à la création d’un fichier de règles (dites « contextuelles ») nécessaires pour affiner
l’étiquetage, c’est-à-dire tenter de revenir sur des affectations erronées. Toujours à partir du même corpus
échantillon étiqueté manuellement, le système va déduire et apprendre une série de modèles de transformations
qui seront déclenchés cette fois par l’environnement contextuel du code précédemment assigné.