Repérage automatique de structures linguistiques en corpus : le cas

Téléchargement

Rep´erage automatique de structures linguistiques en

corpus : le cas des ´enonc´es d´eﬁnitoires

Josette Rebeyrolle, Ludovic Tanguy

To cite this version:

Josette Rebeyrolle, Ludovic Tanguy. Rep´erage automatique de structures linguistiques

en corpus : le cas des ´enonc´es d´eﬁnitoires. Cahiers de Grammaire, Equipe de

Recherche en Syntaxe et S´emantique (ERSS), 2000, 25, pp.153-174. <http://w3.erss.univ-

tlse2.fr/textes/publications/CDG/25/cdg25.html>.<halshs-01322256>

HAL Id: halshs-01322256

https://halshs.archives-ouvertes.fr/halshs-01322256

Submitted on 27 May 2016

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-

entiﬁc research documents, whether they are pub-

lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destin´ee au d´epˆot et `a la diﬀusion de documents

scientiﬁques de niveau recherche, publi´es ou non,

´emanant des ´etablissements d’enseignement et de

recherche fran¸cais ou ´etrangers, des laboratoires

publics ou priv´es.

Cahiers de Grammaire 25 (2000), « Sémantique et Corpus » , pp. 153-174

Repérage automatique de structures

linguistiques en corpus : le cas

des énoncés définitoires

Josette Rebeyrolle* & Ludovic Tanguy**

Cet article propose, pour le cas spécifique des énoncés définitoires, une

démarche qui s'échelonne depuis une étude linguistique du phénomène

jusqu'à la constitution de patrons permettant un repérage automatique des

énoncés. Une attention particulière est portée aux technologies d'analyse de

corpus, et l'accent est tout particulièrement mis sur les différentes pratiques à

l’œuvre dans cette démarche : une pratique linguistique, une pratique des

outils de repérage, et une pratique spécifique à l'étude des corpus.

This paper presents the process that leads from a linguistic study on a given

type of discourse phenomena (definitions, in our case) to the practical design

of morpho-syntactic patterns for their automatic retrieval in corpora. We

present and assess the technological aspects of such a study, including an

evaluation of the resulting patterns, and we discuss the three different kinds

of skill needed in the process: generic linguistic knowledge, use of NLP tools,

and corpus linguistics.

* ERSS (UMR 5610, CNRS / Université Toulouse II).

** ERSS (UMR 5610, CNRS / Université Toulouse II) et Université Toulouse II.

Josette Rebeyrolle & Ludovic Tanguy

Cahiers de Grammaire 25 (2000)

154

1. Introduction

Notre étude porte sur le repérage automatique dans des textes d'énoncés

correspondant à des structures linguistiques précises. Au titre de cette

problématique, nous nous concentrerons spécifiquement sur les énoncés

définitoires, que nous jugeons aptes à exemplifier le cheminement complexe

qui mène d'une étude linguistique à une recherche automatique en corpus.

L'étude des énoncés définitoires s'inscrit dans le champ des recherches

qui présupposent que les actes de langage laissent des traces dans les textes et

que ces traces peuvent être décrites afin de permettre le repérage automatique

de ces énoncés. Reprenant à notre compte cette hypothèse, notre objectif vise

l'acte de définition et consiste à montrer que les structures qui signalent des

énoncés définitoires peuvent être utilisées pour identifier dans les textes les

segments définitoires qui y figurent. L'étude des énoncés définitoires se

justifie d'abord parce qu'il s'agit d'énoncés qui constituent un lieu privilégié

où s'actualisent les relations sémantiques que les mots entretiennent entre eux

et ensuite parce qu'ils ont des propriétés suffisamment stables pour que leur

repérage automatique puisse être envisagé dans différents discours.

Cette question a fait l'objet de nombreuses recherches à la fois en

linguistique et en informatique. Parmi les travaux linguistiques qui se

donnent explicitement pour objectif la description de marqueurs lexico-

syntaxiques signalant des énoncés riches en informations sémantiques, on

peut citer ceux de Borillo (1996), Cartier (1998), Condamines & Rebeyrolle

(à paraître), Meyer (à paraître), Pearson (1998), Pascual & Péry-Woodley

(1995), Rebeyrolle & Péry-Woodley (1998). D'autres travaux abordent ce

problème du point de vue de l'informatique et mettent en oeuvre des

méthodes essentiellement fondées sur des bases statistiques. C'est le cas des

travaux de Hearst (1998), Morin (1999) et Séguéla (1999).

Les premiers travaux (linguistiques) s'en tiennent à la description des

structures qui signalent certains types de relations sémantiques (hyponymie

ou méronymie, pour l'essentiel) ou certains types d'énoncés. Mais, si le

repérage automatique de ces structures constitue toujours la justification de

ces descriptions, son opérationnalisation n'est jamais présentée en tant que

telle (à l'exception toutefois des travaux menés par l'équipe de Meyer). A

contrario, les seconds travaux (informatiques) proposent des outils qui

fournissent des accès aux segments textuels contenant des informations sur le

sens des mots mais sur des bases uniquement statistiques.

L'objectif de la présente étude est double : il s'agit premièrement de voir

comment se manifestent linguistiquement dans les textes les énoncés

définitoires (autrement dit quelles sont les structures linguistiques qui

expriment ces énoncés) (§2) et deuxièmement d'envisager le problème de

l'extraction automatique des segments textuels conformes à ces structures

linguistiques (§3).

R e p é r a g e a u t o m a t i q u e d e s t r u ct u re s l i n g u i s t i q u e s e n c o r p u s

Cahiers de Grammaire 25 (2000)

155

2. Méthode de repérage

2.1. Exemples de structures à travers lesquelles s'exprime un énoncé

définitoire dans le discours

Les formes que revêt la définition en discours ont fait l'objet d'une analyse

détaillée (Rebeyrolle 2000) que nous nous contenterons de résumer ici. Nous

nous contenterons d'indiquer à l'aide de quelques exemples les formes

linguistiques associées aux deux classes d'énoncés définitoires qui ont été

isolées : les énoncés définitoires directs et les énoncés définitoires indirects

(Riegel 1990). Dans les structures énumérées dans le tableau 1, figurent les

trois constituants de chaque structure canonique construite autour d'un verbe

de la classe des verbes de désignation (noté Vdésigner), d'un verbe de la

classe des verbes de dénomination (noté Vs'appeler) ou d'un verbe de la

classe des verbes de signification (noté Vsignifier). On désigne par SNa le

terme à définir, par le couple SNx - X, le syntagme qui sert à le définir. Dès

lors que les éléments en relation ne sont pas des syntagmes nominaux, ils

sont notés A et B - X.

Tableau 1 : Liste des structures linguistiques pour les différentes

classes d'énoncés définitoires.

Classes d'énoncés définitoires Structures linguistiques

Énoncés définitoires directs :

- de désignation [SNa Vdésigner SNx - X]

[N0 Vdésigner SNa SNx - X]

- de dénomination [SNx - X Vs'appeler SNa]

- de signification [A Vsignifier B - X]

- introduits par c'est-à-dire [A, c'est-à-dire B - X]

[B - X, c'est-à-dire A]

Énoncés définitoires indirects :

- de classification [SNa est un Nx - X]

- parenthétiques [SNa (SNx - X)]

[SNx - X (SNa)]

Les exemples fournis ici serviront à illustrer les différents types

d'énoncés définitoires qui ont été distingués :

- les énoncés définitoires de désignation :

(1) On donne le nom de boutonnière, ou bray, aux dépressions allongées, évidées

dans les formations peu résistantes des séries sédimentaires ployées en

ondulations anticlinales peu marquées.

Josette Rebeyrolle & Ludovic Tanguy

Cahiers de Grammaire 25 (2000)

156

- les énoncés de dénomination :

(2) La vase peu colonisée, recouverte plusieurs heures à chaque marée, se nomme

une slikke.

- les énoncés de signification :

(3) Conceptualiser un terme signifie représenter chaque notion du terme par un

concept dans le formalisme .

- les énoncés introduits par c'est-à-dire :

(4) Les Unités de Configuration Logiciel. Elles constituent l'élément de plus bas

niveau géré en configuration, c'est-à-dire le fichier.

- les énoncés de classification :

(5) Un jeu de barres est un circuit triphasé auquel peuvent être raccordés tous les

départs (lignes, transformateurs) à une même tension.

- les énoncés définitoires parenthétiques :

(6) L'expert devait se remémorer l'incident et disposait des informations contenues

dans la main courante (journal de bord où sont notées toutes les interventions

sur le réseau de distribution de gaz).

2.2. Problème du repérage automatique dans des corpus des énoncés

définitoires exprimés par ces structures linguistiques

Nous nous appuierons donc sur une description des propriétés linguistiques

des structures qui permettent de réaliser un acte de définition en discours

(Rebeyrolle 2000). Ce que nous voulons montrer dans cet article, c'est

comment les outils peuvent être employés pour représenter ces structures

linguistiques afin de repérer automatiquement dans un texte les énoncés

définitoires qu'il contient. L'essentiel, pour nous, est donc d'évaluer la

possibilité du repérage automatique des structures définitoires énumérées

précédemment.

Etant donné qu'il n'est pas possible d'extraire efficacement toutes les

structures à l'aide de l'outil (Yakwa, cf. § 2.3.2) dont nous disposons, celui-ci

étant limité à une analyse de surface, la distinction entre les énoncés

définitoires de désignation et de dénomination fondée sur la place qu'occupe

la dénomination, Na, dans la structure thématique de ces énoncés (position

initiale ou médiane pour les énoncés de désignation et position finale pour les

énoncés de dénomination) a été abandonnée. Cette distinction est difficile à

faire du point de vue du repérage automatique étant donné que pour établir

1 / 23 100%

Documents connexes

Exercice d appariement nonc s II

LE RETARD DE LANGAGE Il se caractérise par un décalage

UNIVERSITÉ DE SHERBROOKE FACULTÉ DES LETTRES ET

RTF

The ice had the car sliding around have

Repérage automatique de structures linguistiques en corpus : le cas

Présentation à L`AIOSP 2014 - 4 juin

LE MAINTIEN D’UN CORPS EN BONNE SANTÉ

Verbe ou révérence

Deuxième phase d`industrialisation

in L`inquiétante étrangeté et autres essais, tra

JYL/SC Les délégués de France Routage s`adressent aux

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Repérage automatique de structures linguistiques en corpus : le cas

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Repérage automatique de structures linguistiques en corpus : le cas

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib