Formalismes syntaxiques et traitement automatique

Téléchargement

Universit´e Paris X - Nanterre

Master Traitement automatique des langues

2008 - 2009

Formalismes syntaxiques et traitement

automatique

Marcel Cori

1 Introduction

1.1 Le probl`eme

Les formalismes syntaxiques sont apparus en r´eponse `a une double exigence : celle du

traitement automatique des langues (TAL) et celle de la recherche d’une scientiﬁcit´e en

linguistique.

1.1.1 Le point de vue du TAL

On peut d´eﬁnir de mani`ere tr`es simpliﬁ´ee le traitement automatique des langues

comme ´etant constitu´e des m´ethodes et des programmes qui prennent pour donn´ees

des productions langagi`eres, quand ces m´ethodes et programmes tiennent compte des

sp´eciﬁcit´es des langues humaines.

L’id´ee commun´ement admise `a l’heure actuelle est qu’il faut s´eparer rigoureusement

l’´ecriture des programmes de la description des donn´ees linguistiques. Le formalisme est

alors l’interface entre le linguiste (qui doit se servir du formalisme aﬁn de d´ecrire les

donn´ees) et l’informaticien (qui doit ´ecrire des programmes g´en´eraux qui s’appliquent au

formalisme). Il s’ensuit que :

(1) Les formalismes doivent ˆetre pr´ecis´ement d´eﬁnis, aﬁn de pouvoir se prˆeter `a une

informatisation.

(2) Mˆeme dans le contexte du traitement automatique, l’expressivit´e des formalismes,

leur lisibilit´e, est importante. Il y a une intervention d’ˆetres humains qui ne sauraient se

satisfaire de mod`eles math´ematiques rigoureusement d´eﬁnis et susceptibles d’ˆetre trait´es

par des machines s’ils ne peuvent en comprendre la signiﬁcation.

(3) La complexit´e des traitements informatiques est `a prendre en compte pour d´ecider de

la qualit´e d’un formalisme.

1.1.2 La formalisation en linguistique

Chomsky, dans les ann´ees 1950, a voulu donner `a la linguistique le statut de science, `a

l’´egal des sciences de la nature. Il s’en est justiﬁ´e notamment dans les termes qui suivent :

(( Precisely constructed models for linguistic structure can play an important role, both

negative and positive, in the process of discovery itself. By pushing a precise but inade-

quate formulation to an unacceptable conclusion, we can often expose the exact source

of this inadequacy and, consequently, gain a deeper understanding of the linguistic data.

More positively, a formalized theory may automatically provide solutions for many pro-

blems other than those for wich it was explicitly designed. Obscure and intuition-bound

notions can neither lead to absurd conclusions nor provide new and correct ones, and

hence they fail to be usefull in two important respects. I think that some of those lin-

guists who have questioned the value of precise and technical development of linguistic

theory have failed to recognize the productive potential in the method of rigorously sta-

ting a proposed theory and applying it strictly to linguistic material with no attempt to

avoid unacceptable conclusions by ad hoc adjustments or loose formulation. )) 1

Qu’apportent des (( mod`eles pr´ecis´ement construits ))? La r´eponse, `a notre sens, tient

en trois mots : falsiﬁabilit´e, pr´edictivit´e, objectivit´e.

Tout d’abord, il est impossible de r´efuter des propositions ´enonc´ees de mani`ere tr`es

impr´ecise. Seules des propositions formul´ees rigoureusement, dont on peut sans ´equivoque

tirer des cons´equences, peuvent ˆetre r´efut´ees. Or, une th´eorie non falsiﬁable est une th´eorie

non scientiﬁque.

Ensuite, une science doit pouvoir trouver des solutions qui s’appliquent `a des donn´ees

qui n’ont pas ´et´e examin´ees ou `a des probl`emes qui n’ont pas ´et´e envisag´es : c’est son

caract`ere pr´edictif. Cela n´ecessite encore que puissent ˆetre tir´ees sans ´equivoque les

cons´equences des propositions ´enonc´ees.

Il apparaˆıt ainsi essentiel qu’un mod`ele soit objectif. Autrement dit, mises entre n’im-

porte quelles mains, les mˆemes hypoth`eses dans un mˆeme mod`ele doivent conduire aux

mˆemes conclusions, comme les mˆemes calculs doivent conduire aux mˆemes r´esultats quel

que soit le calculateur. C’est dire qu’un mod`ele (( pr´ecis´ement construit )) ne peut ˆetre

qu’un mod`ele math´ematique. On peut se passer de l’auteur d’une th´eorie math´ematis´ee

pour pouvoir l’appliquer `a tel ou tel fait. On peut transmettre la th´eorie `a d’autres per-

sonnes, qui en deviennent des d´epositaires aussi l´egitimes que les auteurs originels. La

th´eorie n’est plus attach´ee au th´eoricien.

Nous dirons, de mani`ere tr`es rapide, que la d´emarche scientiﬁque consiste `a observer,

d´ecrire, classer, g´en´eraliser, mod´eliser. L’observation est la toute premi`ere phase de la

d´emarche scientiﬁque, tandis que la mod´elisation en constitue la phase ultime, phase

exclusive de la math´ematisation.

Il est vrai qu’un mod`ele existe ind´ependamment des faits qu’il est suppos´e d´ecrire

et que, par l`a mˆeme, il peut ne reﬂ´eter qu’imparfaitement la r´ealit´e. Mais le mod`ele est

falsiﬁable, et donc sans cesse am´eliorable.

1.1.3 Mod`eles et grammaires

Un mod`ele constitue le cadre math´ematique dans lequel il est possible d’exprimer ses

donn´ees. Plus pr´ecis´ement, d´eﬁnir un mod`ele, cela consiste `a se donner une ou plusieurs

classes d’objets math´ematiques, les donn´ees du monde r´eel devant ˆetre repr´esent´ees par

des occurrences d’objets. Par exemple, un mod`ele peut d´eterminer la forme que doivent

1. Chomsky (1957:5). Ce passage est souvent cit´e, notamment par Pollard et Sag (1994), pp.7-8. Pullum

(1991) a montr´e dans quelle mesure Chomsky s’est retourn´e contre les principes qu’il avait lui-mˆeme pos´es.

prendre les diﬀ´erentes grammaires cens´ees d´ecrire chacune une langue diﬀ´erente. Ce n’est

d’ailleurs pas n´ecessairement aux mˆemes personnes qu’il revient de d´eﬁnir un mod`ele et

de construire des grammaires. On notera cependant que, le plus souvent, les concepteurs

des mod`eles sont aussi les auteurs des grammaires, ce qui entraˆıne de la confusion sur ce

qu’est un formalisme ou ce qu’est une th´eorie linguistique.

Selon qu’un mod`ele est plus ou moins contraint, c’est-`a-dire selon que la classe d’objets

qu’il autorise est plus ou moins ´etroite, il y a un d´eplacement dans la prise de d´ecision.

Un mod`ele contraint minimise le nombre de d´ecisions `a prendre dans l’´ecriture des gram-

maires. On peut dire en ce sens que choisir un mod`ele contraint, c’est aﬃrmer une position

sur la structure des langues humaines. Avec le risque, si le mod`ele est trop contraint, de

rendre impossible la repr´esentation de certains ph´enom`enes linguistiques.

A l’inverse, choisir un mod`ele tr`es peu contraint ou non contraint, cela s’apparente

`a ne pas d´eﬁnir de mod`ele du tout. L’auteur de grammaires dispose d’une tr`es grande

libert´e, mais il se trouve un peu dans la mˆeme situation que s’il travaillait dans un cadre

non formel. Les d´ecisions qu’il doit prendre ne se fondent sur aucun crit`ere explicite, ou

en tout cas aucun crit`ere propre au mod`ele. Au mieux, elles peuvent ˆetre guid´ees par des

commentaires fournis par les concepteurs des mod`eles.

1.1.4 Mod`eles et langages

Il est important de ne pas confondre un mod`ele avec le langage en lequel sont exprim´ees

les donn´ees dans le cadre du mod`ele. Sinon, on risque de ne pas s’apercevoir que deux

approches sont radicalement diﬀ´erentes – parce qu’elles utilisent le mˆeme langage –, ou

qu’il y a une rupture qui s’est produite au sein d’une mˆeme approche. Inversement, on

peut ˆetre amen´e `a penser que deux formalisations, autrement dit deux math´ematisations,

n’ont rien de commun parce que les langages utilis´es diﬀ`erent.

Or, un mˆeme objet math´ematique peut ˆetre exprim´e selon diﬀ´erents langages. Par

exemple, un mˆeme arbre syntagmatique peut ˆetre d´ecrit par les deux notations pa-

renth´es´ees suivantes2:

S(SN(det,N),SV(V,SN(det,N)))

(S (SN det N) (SV V (SN det N)))

Sachant que des mod`eles cens´es repr´esenter les connaissances linguistiques ont ´et´e

´elabor´es les uns ind´ependament des autres dans des cadres diﬀ´erents, il a fallu, a posteriori,

´etudier en quoi ces mod`eles se diﬀ´erenciaient.

Mais, il n’est pas toujours imm´ediat de d´emontrer que deux objets math´ematiques

sont diﬀ´erents ou identiques. La notion mˆeme d’identit´e ou d’´equivalence entre objets

math´ematiques ne va pas de soi. Il est par cons´equent sp´ecialement important, si on veut

comparer des cadres th´eoriques, de d´eﬁnir ce qu’on entend par ´equivalence.

2. L’une correspond `a la notation du langage Prolog, et l’autre `a la notation du langage LISP.

On peut d´eﬁnir une th´eorie linguistique comme ´etant un ensemble T={G1, G2, . . .}

de grammaires – ce que nous appelons ici un mod`ele. Chaque Giengendre un ensemble

d’´enonc´es, autrement dit un langage L(Gi), et un ensemble Σ(Gi) de descriptions struc-

turales : `a chaque ´enonc´e de L(Gi) correspondent une ou plusieurs descriptions de Σ(Gi).

Les descriptions structurales sont d’une nature qui peut varier selon les th´eories.

Deux th´eories linguistiques Tet T0sont dites faiblement ´equivalentes si et seulement

si pour toute grammaire Gi∈Til existe une grammaire G0

j∈T0telle que L(Gi) = L(G0

j),

et r´eciproquement.

Cette notion d’´equivalence faible, bien qu’elle ne soit pas `a n´egliger, est manifestement

insuﬃsante pour d´ecider de l’´equivalence de th´eories linguistiques. En eﬀet, si on s’en

contentait, cela impliquerait que l’on ne tient aucun compte de tout ce qui concerne la

description structurale des ´enonc´es.

C’est pourquoi a ´et´e introduite la notion d’´equivalence forte. Deux th´eories Tet T0sont

dites fortement ´equivalentes si et seulement si pour toute grammaire Gi∈Til existe une

grammaire G0

j∈T0telle que Σ(Gi) = Σ(G0

j), et r´eciproquement. Cette fois, cependant,

le crit`ere est trop strict, car de simples diﬀ´erences de notation rendraient des th´eories

non ´equivalentes, de mˆeme que de simples points de d´etail. Une th´eorie ne pourrait ˆetre

´equivalente qu’`a elle-mˆeme ! La question est donc de trouver un concept d’´equivalence

entre descriptions structurales qui soit moins rigide que la simple identit´e.

On propose donc la d´eﬁnition suivante : deux th´eories Tet T0sont fortement ´equivalentes

si et seulement si :

(i) pour toute grammaire Gi∈Til existe une grammaire G0

j∈T0telle qu’on puisse

´etablir une correspondance bijective entre Σ(Gi) et Σ(G0

(ii) pour toute grammaire G0

j∈T0il existe une grammaire Gi∈Ttelle qu’on puisse

´etablir une correspondance bijective entre Σ(Gi) et Σ(G0

Si seule la condition (i) est v´eriﬁ´ee on dira que Test moins puissante que T0, si seule

(ii) est v´eriﬁ´ee c’est T0qui est moins puissante que T.

1.2 Un parcours historique rapide

Nous reprenons dans cette partie les grandes lignes d’une approche historique des

cinquante derni`eres ann´ees, ´elabor´ee par Cori et Marandin (2001). On distinguera ci-

dessous quatre (( mouvements )): (a) l’´emergence du programme g´en´eratif et de la notion de

grammaire g´en´erative ; (b) le d´eveloppement de mod`eles pour le traitement automatique

qui vont rapidement devenir d´eclaratifs ; (c) le mouvement de r´eforme qui se cristallise

dans le refus de la forme transformationnelle de la grammaire ; (d) le d´eveloppement des

grammaires multidimensionnelles qui sont charg´ees d’int´egrer les analyses des dimensions

formelles (syntaxe et phonologie) et non formelles (s´emantique, pragmatique) des langues.

1 / 58 100%

Documents connexes

Trouble de personnalité Interprétation fausse de l`expérience vécue

Les personnalités de Holland

Profil RIASEC-Z

définitions de mots, verbes ou expressions contenus

calligraphie

Fonctions, définition

Troubles de la personnalité chez l`enfant et l`adolescent 1

La chute libre

Feuille d`exercices 3

Formulaire d`offre de stage

SIA 2017 Filiere vegetale P.PEREZ

Thème 4 Le porteur génétique (pp. 37- )

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Formalismes syntaxiques et traitement automatique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Formalismes syntaxiques et traitement automatique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib