2004a, Revue française de linguistique appliquée IX.1 (« Linguistique et informatique : nouveaux défis »), pp. 45-62.
[Article dans une revue internationale avec comité de lecture ; rédigé en 2003-2004 ; 60 143 caractères ; cf. E6 & E7]
T4
Faire coopérer deux concordanciers-analyseurs
pour optimiser les extractions en corpus
[045
Ð Résumé
Une étude linguistique circonscrite – l’analyse syntaxico-sémantique de certains em-
plois des verbes donner et passer dans la langue du football – offre un cadre utile pour
développer une réflexion qualitative sur les ressources documentaires constituables
en un corpus électronique instructif et de bonne couverture, et introduire la notion de
“corpus thématiques à haut rendement”. Ensuite, pour explorer le corpus construit,
Cordial Analyseur et Unitex, deux concordanciers et analyseurs syntaxiques, sont
mis à l’épreuve. La description de leurs fonctionnalités partagées, de leurs spécificités
mais aussi de leurs faiblesses me conduit à formuler une proposition originale : faire
collaborer ces deux outils afin que leurs complémentarités stratégiquement exploitées
offrent le pouvoir de formuler des requêtes d’une complexité certaine en bénéficiant
d’une fiabilité d’analyse avérée et d’une capacité à marquer chaque élément repéré
dans les concordances produites avec un balisage en langage XML.
0. Introduction
Cette contribution vise, à partir de mon expérience de formatrice, à évaluer com-
ment des linguistes peuvent effectivement tirer un certain profit à exploiter des res-
sources électroniques et des outils informatiques qu’on dit leur être destinés. L’ensemble
de mon propos prendra comme appui une étude linguistique circonscrite : l’analyse
syntaxico-sémantique de certains emplois des verbes donner et passer, présentée sec-
tion 1. L’examen critique des ressources documentaires communément accessibles fera
apparaître [046
Ð(§ 2.) l’intérêt de la constitution de corpus thématiques à haut rendement
du type de celui que nous élaborons dans le DESS LTTAC 1. La recherche d’outils d’ex-
ploration de corpus électroniques adaptés à la tâche visée amènera à décrire (§ 3.) les
spécificités de deux concordanciers et analyseurs syntaxiques (Cordial Analyseur et
Unitex) et à observer les recouvrements, qui ne sont que partiels, de leurs fonctionna-
lités. Je formulerai alors (§ 4.) une proposition originale d’articulation de ces deux ou-
tils : leurs complémentarités stratégiquement exploitées et leur maniement assimilable
[046
Ð 1 Le DESS “Lexicographie, Terminographie et Traitement Automatique des Corpus” de l’université Lille III.
452 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
peuvent permettre d’allier puissance d’expression, fiabilité d’analyse et confort de tra-
vail, même pour les linguistes novices en informatique.
1. L’objet de l’étude linguistique : les verbes exprimant la transmission du bal-
lon dans la langue du football
Pour concrétiser mon propos sur le gain qu’il y a à utiliser un outillage informa-
tique pour étayer les recherches de linguistes, j’évoquerai certains aspects d’une étude
relative aux variations d’emploi du verbe donner corrélées aux types des arguments
qu’il régit, puis son extension à d’autres verbes avec lesquels il entretient des relations
de synonymie. Cette étude est circonscrite à une “langue de spécialité de large diffu-
sion”, la langue du football, que je cherche à contraster avec la “langue commune”.
Ce qu’il est convenu d’appeler “langue commune” est une construction théorique.
Elle correspond à la langue non spécialisée, enrichie de tout ce qui transite vers elle
depuis les “langues spécialisées” via les communications de masse, les discours vulga-
risateurs et les échanges interpersonnels sur des thèmes spécialisés entre locuteurs
non spécialisés et locuteurs spécialisés. Ainsi définie la “langue commune” est, du fait
de l’incessance des flux migratoires depuis les “langues spécialisées”, un réel langagier
très instable. La notion de “langues de spécialité de large diffusion” circonscrit des es-
paces linguistiques aux frontières de la “langue commune”, correspondant aux langues
relativement techniques que chacun d’entre nous est susceptible d’employer dans des
sphères expérientielles courantes bien que relevant d’un domaine de spécialité identi-
fiable et dont nous ne sommes pas spécialistes. La langue du football n’est pas une “langue
spécialisée” mais bien une “langue de spécialité de large diffusion” dans la mesure où
elle est comprise et parlée par des personnes, professionnelles ou non, qui s’investissent
dans ce domaine. Les pratiques langagières dont elles s’imprègnent sont non superpo-
sables aux pratiques ordinaires de la “langue commune” sans leur être étrangères, le
vocabulaire n’y est pas de type terminologique mais est majoritairement fait de mots
qui n’ont pas besoin d’être explicités pour être compris et qui entrent dans des cons-
tructions au sens globalement transparent. Observées en détail, ces pratiques révèlent
des comportements syntaxiques remarquables corrélés à des variations sémantiques,
effectives même si discrètes, des unités lexicales. À partir de premières observations
faites par imprégnation, un travail sur corpus permet de les détecter plus systémati-
quement puis de les décrire. Je ne présenterai ici que le travail fait sur la langue du
football, laissant implicite la comparaison avec les comportements de ce mêmes items
en “langue commune”, qui, faute de pouvoir disposer d’un corpus ayant une représen-
tativité avérée, sont appréhendables intuitivement et à travers les descriptions lexico-
graphiques ou travaux de linguistes.
Les deux objectifs de cette étude linguistique sont articulés :
[047
Ð Dans la “langue de spécialité de large diffusion” qui s’exprime de façon privilégiée
dans les commentaires footballistiques des grands médias, le verbe donner a une place
de choix au sein du paradigme des verbes utilisés pour signifier la transmission du
ballon d’un joueur à un autre, en tant qu’il est à la fois un lexème couramment usité
et un bon candidat à être l’archilexème de cette classe.
T4 – Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus 453
L’étude des autres verbes de la même classe – adresser, distiller pour (préférentielle-
ment au passif), écarter, glisser, passer, prolonger pour, remettre, remiser, transmettre,
etc. – vise à évaluer dans quelle mesure il est possible d’établir pour ces verbes des
corrélations entre parallélismes de constructions syntaxiques et degrés de synonymie.
Au sein de cet ensemble, je me concentrerai ici sur le seul verbe passer, en raison d’une
caractéristique intéressante : la forme conjuguée au présent de l’indicatif troisième
personne du singulier est homographe 2 de celle du nom passe, ce qui est source, pour
certains outils informatiques, d’ambiguïtés qui peuvent se révéler handicapantes lors
de l’exploration automatique d’un corpus consacré à la langue d’un sport collectif fondé
sur la transmission d’un ballon entre les joueurs d’une même équipe. 3
Pour développer les objectifs linguistiques énoncés supra, les données utiles peuvent
donc être obtenues en relevant les occurrences des verbes considérés, ici donner et
passer, qui apparaissent dans des commentaires et analyses de matchs de football,
c’est-à-dire des énoncés où sont décrites des actions de jeu, énoncés produits, sans que
cela ait d’incidence pour notre propos, dans différentes conditions. Il convient donc de
savoir extraire l’ensemble des occurrences de chaque verbe et établir des sous-ensembles
discriminés selon des critères syntaxiques, en travaillant sur les syntagmes préposi-
tionnels éventuellement postposés au verbe (introduits par à, de, en, pour, sur, etc.) et
en construisant, pour décrire chaque position argumentale, des classes de noms théma-
tiquement cohérentes. Les arguments des énoncés
(1) Celestini qui peut donner à Dos Santos sur le côté gauche
(2) Stéphane Pédron il a dû revenir et donner un ballon quasiment de la ligne médiane à son gardien
(3) Lilian Laslandes qui donnait là-bas sur le côté droit à hauteur des six mètres pour le défenseur
bastiais
relèvent respectivement de classes référant à des noms de joueurs ou à des syntagmes
permettant, comme son gardien ou le défenseur bastiais dans les deux derniers énoncés,
de référer à eux en contexte (N-JOUEUR-SOURCE : Celestini, Stéphane Pédron, Lilian Las-
landes ; N-JOUEUR-DESTINATAIRE-VISÉ : le défenseur bastiais ; N-JOUEUR-DESTINATAIRE-
EFFECTIF : Dos [048
ÐSantos, son gardien), des noms de lieux points de départ des trajec-
toires de balles (N-LIEU-SOURCE : la ligne médiane) ou visés (N-LIEU-DESTINATION : le
côté gauche, le côté droit, les six mètres), et les dénominations du ballon (N-BALLON).
Après analyse de chacun des emplois relevés, l’affinage des critères de subdivision de
[047
Ð 2 Je laisse de côté les autres occurrences de passe comme forme du verbe passer, dont la probabilité de présence
dans des commentaires footballistiques s’échelonne de très faible à insignifiante (sans être nulle, cependant :
la première personne du présent de l’indicatif peut apparaître comme présent de narration dans une inter-
view de joueur évoquant une action de jeu dans laquelle il s’est trouvé impliqué, et le subjonctif présent ne
peut pas être totalement exclu ; l’impératif, par contre, est hautement improbable).
3 L’intérêt spécifique de la forme passe est conforté par un faisceau d’observations linguistiques :
– le fait que passer, autre bon candidat archilexème du paradigme des verbes de transmission du ballon, ne
semble par contre pas être un lexème aussi usité que donner dans cet emploi ;
le fait que le nom passe entre dans la construction à verbe support faire une passe comme alternative à
passer ;
– le fait enfin que le nom passe, très usité pour exprimer le procès sans ce soutien d’un verbe support, cons-
titue avec le verbe donner une sorte de couple supplétif, le nom donne étant inusité comme nominalisation
de celui-ci dans la langue du football.
454 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
l’ensemble initial devrait permettre de n’obtenir que des sous-ensembles où chaque
occurrence contextualisée sera interprétable de manière comparable, en respectant une
même paraphrase. Ainsi, les énoncés précédents appartiendront au sous-ensemble de
patrons 4 :
N-JOUEUR-SOURCE donner à N-JOUEUR-DESTINATAIRE-EFFECTIF sur N-LIEU-DESTINATION
N-JOUEUR-SOURCE donner N-BALLON de N-LIEU-SOURCE à N-JOUEUR-DESTINATAIRE-EFFECTIF
N-JOUEUR-SOURCE donner ((E 5 + sur + à hauteur de) N-LIEU-DESTINATION)+ 6 pour N-JOUEUR-
DESTINATAIRE-VISÉ
dans l’expression desquels nous retrouvons les informations relatives à la structure
syntaxique attestée et aux classes de noms occupant chacune des positions argumen-
tales, et une description du sens de l’ensemble.
Pour accomplir ces différentes tâches sans passer de longues heures à écouter ou
lire, en prenant des notes, des retransmissions ou comptes rendus de rencontres de
football, il convient d’une part d’accéder à un corpus de commentaires de matchs et
d’autre part de disposer d’outils permettant d’explorer ces données textuelles, à partir
non seulement des mots tels qu’ils apparaissent (des formes fléchies), mais aussi des
lemmes et des étiquettes grammaticales, afin de ne pas réitérer la procédure pour chaque
forme conjuguée des verbes étudiés et chacune des prépositions postposées.
2. Les ressources pour la constitution d’un corpus de commentaires footballis-
tiques
Le corpus à explorer, celui permettant d’extraire les patrons attestés dans la langue
du football, ne nous est pas donné. Pour le constituer, il convient d’opérer une sélection
stricte sur les documents, en ne retenant que ceux constitués de commentaires et d’ana-
lyses de matchs, qui, seuls, sont susceptibles de présenter une richesse optimale en
descriptions des actions de jeu.
Si le principe méthodologique est clair, sa réalisation peut s’avérer plus ou moins
coûteuse. Pour réduire le risque d’efforts de constitution stériles ou d’explorations vaines,
il est impératif de penser la qualité d’un corpus à construire préalablement à sa cons-
titution. Ce questionnement qualitatif sur les sources documentaires exploitables est
une étape nécessaire pour améliorer les conditions de travail de ceux qui, ultérieure-
ment, seront en quête de contextes instructifs attestés et viendront le consulter. Dans
le cas précis du corpus qui nous intéresse, je m’attacherai particulièrement à montrer
la très grande disparité de richesse des contenus textuels mobilisables. J’évaluerai tour
[048
Ð 4 Les patrons, tels que présentés ici, surgénèrent, ce qui n’est pas problématique si nous les considérons comme
des motifs de recherche en corpus, mais qui le deviendrait si nous cherchions à créer des énoncés à partir
d’eux, puisque nous serions alors en situation de produire des constructions improbables, voire impossibles,
comme : *sur les six mètres.
5 Le E” marque ici l’absence de préposition.
6 Les patrons pourront intégrer des opérateurs postposés aux éléments sur lesquels ils portent et stipulant
leur caractère soit facultatif (?), soit répétable (+), soit facultatif et répétable (*).
T4 – Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus 455
à tour l’opportunité de constituer ce corpus de commentaires footballistiques à partir
du CD-ROM du journal Le Monde 1997-1998, d’articles téléchargés sur le site du jour-
nal L’Équipe relevant des pages [049
Ðfootball, de comptes rendus trouvés sur le Web et
enfin de transcriptions de commentaires radiophoniques.
2.1. Un exemple de corpus à faible rendement : les CD-ROM du journal Le Monde
Les CD-ROM du journal Le Monde 7 permettent d’exporter le texte de tous les ar-
ticles relatifs à un sujet et où apparaît un choix de formes fléchies sélectionnées par
l’utilisateur. Cette sélection se fait à partir d’un index qui liste en fait l’ensemble des
mots pleins 8 tels que relevés dans l’ensemble des articles (sans lemmatisation ni caté-
gorisation grammaticale, mais avec éventuellement des fautes orthographiques ou de
saisie restées non corrigées).
Le CD-ROM 1997-1998 propose 3 586 articles relevant du football, ce qui peut sem-
bler fournir un matériau d’observation conséquent. Malheureusement pour mon propos
actuel, ils traitent de tout ce qui peut référer au monde du football 9 : les transferts de
joueurs d’une équipe à une autre, l’état de santé des clubs, les problèmes financiers ou
de dopage, etc. Faute de mieux pouvoir cibler le choix d’articles 10, j’ai donc parcouru la
liste des titres d’articles relevant du football et ai sélectionné les 737 (soit 20 %) sem-
blant pertinents 11. Mais même en procédant ainsi, les textes retenus ne se sont pas
révélés très intéressants à explorer, car ils ne sont pas représentatifs du parler foot-
ballistique : une liste de fréquences révèle la pauvreté de leur contenu lexical relatif
(bon nombre des termes les plus fréquents dans les descriptions d’actions de jeux – ligne
médiane, six mètres, etc. – ne sont pas ou sont peu représentés), une comparaison des
patrons syntaxiques étudiés, qui ne sera pas développée ici, confirme ce décalage.
En conclusion, alors que les articles du journal Le Monde sont aisément exportables
du CD-ROM, et malgré le volume de données textuelles ainsi rendu disponible, rien ne
laisse supposer, si le critère de sélection est la richesse de contenu, que l’on rentabilise
le temps passé à les sélectionner. Cette observation qualitative et son corrélat, le ratio
[049
Ð 7 Ces CD-ROM, parfois consultables en bibliothèque universitaire, jouissent d’une bonne notoriété et sont rela-
tivement souvent exploités, en dépit de leur coût trop élevé pour être raisonnablement acquis par des parti-
culiers.
8 Via l’index, on accédera aux noms, verbes, adjectifs, adverbes, mais pas aux prépositions, qui jouent un rôle
important dans la langue du football.
9 Quelques exemples de titres d’articles, comme indices de la faible part relative des commentaires de matchs :
« FOOTBALL : arrivée de l’attaquant messin Bruno Rodriguez au Paris Saint-Germain » ;
« Les clubs français sont jugés aptes à l’entrée en Bourse » ;
« La Coupe du monde 1998 a donné à 240 000 nouveaux licenciés l’envie de taper dans un ballon ».
10 Une autre piste de sélection aurait pu être de ne retenir que les articles publiés les lendemains de journées
de championnat de France, de coupe d’Europe, etc. Il faudrait pour cela reprendre le calendrier 1997-1998,
repérer les dates pertinentes et, au sein des articles exportés, faire de nouveau une sélection manuelle. Ce
travail, jugé lourd et trop peu rentable, n’a pas été fait ici.
11 Au nombre des titres évalués comme pouvant référer à des articles à sélectionner, par exemple :
« FOOTBALL : Le Brésil et la France terminent respectivement à la première et à la deuxième place du
classement mondial 1998 ».
1 / 20 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!