Universit´e Paris X - Nanterre
Master Traitement automatique des langues
2008 - 2009
Formalismes syntaxiques et traitement
automatique
Marcel Cori
1 Introduction
1.1 Le probl`eme
Les formalismes syntaxiques sont apparus en r´eponse `a une double exigence : celle du
traitement automatique des langues (TAL) et celle de la recherche d’une scientificit´e en
linguistique.
1.1.1 Le point de vue du TAL
On peut d´efinir de mani`ere tr`es simplifi´ee le traitement automatique des langues
comme ´etant constitu´e des m´ethodes et des programmes qui prennent pour donn´ees
des productions langagi`eres, quand ces m´ethodes et programmes tiennent compte des
sp´ecificit´es des langues humaines.
L’id´ee commun´ement admise `a l’heure actuelle est qu’il faut s´eparer rigoureusement
l’´ecriture des programmes de la description des donn´ees linguistiques. Le formalisme est
alors l’interface entre le linguiste (qui doit se servir du formalisme afin de d´ecrire les
donn´ees) et l’informaticien (qui doit ´ecrire des programmes g´en´eraux qui s’appliquent au
formalisme). Il s’ensuit que :
(1) Les formalismes doivent ˆetre pr´ecis´ement d´efinis, afin de pouvoir se prˆeter `a une
informatisation.
(2) Mˆeme dans le contexte du traitement automatique, l’expressivit´e des formalismes,
leur lisibilit´e, est importante. Il y a une intervention d’ˆetres humains qui ne sauraient se
satisfaire de mod`eles math´ematiques rigoureusement d´efinis et susceptibles d’ˆetre trait´es
par des machines s’ils ne peuvent en comprendre la signification.
(3) La complexit´e des traitements informatiques est `a prendre en compte pour d´ecider de
la qualit´e d’un formalisme.
1.1.2 La formalisation en linguistique
Chomsky, dans les ann´ees 1950, a voulu donner `a la linguistique le statut de science, `a
l’´egal des sciences de la nature. Il s’en est justifi´e notamment dans les termes qui suivent :
(( Precisely constructed models for linguistic structure can play an important role, both
negative and positive, in the process of discovery itself. By pushing a precise but inade-
quate formulation to an unacceptable conclusion, we can often expose the exact source
of this inadequacy and, consequently, gain a deeper understanding of the linguistic data.
2
More positively, a formalized theory may automatically provide solutions for many pro-
blems other than those for wich it was explicitly designed. Obscure and intuition-bound
notions can neither lead to absurd conclusions nor provide new and correct ones, and
hence they fail to be usefull in two important respects. I think that some of those lin-
guists who have questioned the value of precise and technical development of linguistic
theory have failed to recognize the productive potential in the method of rigorously sta-
ting a proposed theory and applying it strictly to linguistic material with no attempt to
avoid unacceptable conclusions by ad hoc adjustments or loose formulation. )) 1
Qu’apportent des (( mod`eles pr´ecis´ement construits ))? La r´eponse, `a notre sens, tient
en trois mots : falsifiabilit´e, pr´edictivit´e, objectivit´e.
Tout d’abord, il est impossible de r´efuter des propositions ´enonc´ees de mani`ere tr`es
impr´ecise. Seules des propositions formul´ees rigoureusement, dont on peut sans ´equivoque
tirer des cons´equences, peuvent ˆetre r´efut´ees. Or, une th´eorie non falsifiable est une th´eorie
non scientifique.
Ensuite, une science doit pouvoir trouver des solutions qui s’appliquent `a des donn´ees
qui n’ont pas ´et´e examin´ees ou `a des probl`emes qui n’ont pas ´et´e envisag´es : c’est son
caract`ere pr´edictif. Cela n´ecessite encore que puissent ˆetre tir´ees sans ´equivoque les
cons´equences des propositions ´enonc´ees.
Il apparaˆıt ainsi essentiel qu’un mod`ele soit objectif. Autrement dit, mises entre n’im-
porte quelles mains, les mˆemes hypoth`eses dans un mˆeme mod`ele doivent conduire aux
mˆemes conclusions, comme les mˆemes calculs doivent conduire aux mˆemes r´esultats quel
que soit le calculateur. C’est dire qu’un mod`ele (( pr´ecis´ement construit )) ne peut ˆetre
qu’un mod`ele math´ematique. On peut se passer de l’auteur d’une th´eorie math´ematis´ee
pour pouvoir l’appliquer `a tel ou tel fait. On peut transmettre la th´eorie `a d’autres per-
sonnes, qui en deviennent des d´epositaires aussi l´egitimes que les auteurs originels. La
th´eorie n’est plus attach´ee au th´eoricien.
Nous dirons, de mani`ere tr`es rapide, que la d´emarche scientifique consiste `a observer,
d´ecrire, classer, g´en´eraliser, mod´eliser. L’observation est la toute premi`ere phase de la
d´emarche scientifique, tandis que la mod´elisation en constitue la phase ultime, phase
exclusive de la math´ematisation.
Il est vrai qu’un mod`ele existe ind´ependamment des faits qu’il est suppos´e d´ecrire
et que, par l`a mˆeme, il peut ne refl´eter qu’imparfaitement la r´ealit´e. Mais le mod`ele est
falsifiable, et donc sans cesse am´eliorable.
1.1.3 Mod`eles et grammaires
Un mod`ele constitue le cadre math´ematique dans lequel il est possible d’exprimer ses
donn´ees. Plus pr´ecis´ement, d´efinir un mod`ele, cela consiste `a se donner une ou plusieurs
classes d’objets math´ematiques, les donn´ees du monde r´eel devant ˆetre repr´esent´ees par
des occurrences d’objets. Par exemple, un mod`ele peut d´eterminer la forme que doivent
1. Chomsky (1957:5). Ce passage est souvent cit´e, notamment par Pollard et Sag (1994), pp.7-8. Pullum
(1991) a montr´e dans quelle mesure Chomsky s’est retourn´e contre les principes qu’il avait lui-mˆeme pos´es.
3
prendre les diff´erentes grammaires cens´ees d´ecrire chacune une langue diff´erente. Ce n’est
d’ailleurs pas n´ecessairement aux mˆemes personnes qu’il revient de d´efinir un mod`ele et
de construire des grammaires. On notera cependant que, le plus souvent, les concepteurs
des mod`eles sont aussi les auteurs des grammaires, ce qui entraˆıne de la confusion sur ce
qu’est un formalisme ou ce qu’est une th´eorie linguistique.
Selon qu’un mod`ele est plus ou moins contraint, c’est-`a-dire selon que la classe d’objets
qu’il autorise est plus ou moins ´etroite, il y a un d´eplacement dans la prise de d´ecision.
Un mod`ele contraint minimise le nombre de d´ecisions `a prendre dans l’´ecriture des gram-
maires. On peut dire en ce sens que choisir un mod`ele contraint, c’est affirmer une position
sur la structure des langues humaines. Avec le risque, si le mod`ele est trop contraint, de
rendre impossible la repr´esentation de certains ph´enom`enes linguistiques.
`
A l’inverse, choisir un mod`ele tr`es peu contraint ou non contraint, cela s’apparente
`a ne pas d´efinir de mod`ele du tout. L’auteur de grammaires dispose d’une tr`es grande
libert´e, mais il se trouve un peu dans la mˆeme situation que s’il travaillait dans un cadre
non formel. Les d´ecisions qu’il doit prendre ne se fondent sur aucun crit`ere explicite, ou
en tout cas aucun crit`ere propre au mod`ele. Au mieux, elles peuvent ˆetre guid´ees par des
commentaires fournis par les concepteurs des mod`eles.
1.1.4 Mod`eles et langages
Il est important de ne pas confondre un mod`ele avec le langage en lequel sont exprim´ees
les donn´ees dans le cadre du mod`ele. Sinon, on risque de ne pas s’apercevoir que deux
approches sont radicalement diff´erentes – parce qu’elles utilisent le mˆeme langage –, ou
qu’il y a une rupture qui s’est produite au sein d’une mˆeme approche. Inversement, on
peut ˆetre amen´e `a penser que deux formalisations, autrement dit deux math´ematisations,
n’ont rien de commun parce que les langages utilis´es diff`erent.
Or, un mˆeme objet math´ematique peut ˆetre exprim´e selon diff´erents langages. Par
exemple, un mˆeme arbre syntagmatique peut ˆetre d´ecrit par les deux notations pa-
renth´es´ees suivantes2:
S(SN(det,N),SV(V,SN(det,N)))
(S (SN det N) (SV V (SN det N)))
Sachant que des mod`eles cens´es repr´esenter les connaissances linguistiques ont ´et´e
´elabor´es les uns ind´ependament des autres dans des cadres diff´erents, il a fallu, a posteriori,
´etudier en quoi ces mod`eles se diff´erenciaient.
Mais, il n’est pas toujours imm´ediat de d´emontrer que deux objets math´ematiques
sont diff´erents ou identiques. La notion mˆeme d’identit´e ou d’´equivalence entre objets
math´ematiques ne va pas de soi. Il est par cons´equent sp´ecialement important, si on veut
comparer des cadres th´eoriques, de d´efinir ce qu’on entend par ´equivalence.
2. L’une correspond `a la notation du langage Prolog, et l’autre `a la notation du langage LISP.
4
On peut d´efinir une th´eorie linguistique comme ´etant un ensemble T={G1, G2, . . .}
de grammaires – ce que nous appelons ici un mod`ele. Chaque Giengendre un ensemble
d’´enonc´es, autrement dit un langage L(Gi), et un ensemble Σ(Gi) de descriptions struc-
turales : `a chaque ´enonc´e de L(Gi) correspondent une ou plusieurs descriptions de Σ(Gi).
Les descriptions structurales sont d’une nature qui peut varier selon les th´eories.
Deux th´eories linguistiques Tet T0sont dites faiblement ´equivalentes si et seulement
si pour toute grammaire GiTil existe une grammaire G0
jT0telle que L(Gi) = L(G0
j),
et r´eciproquement.
Cette notion d’´equivalence faible, bien qu’elle ne soit pas `a n´egliger, est manifestement
insuffisante pour d´ecider de l’´equivalence de th´eories linguistiques. En effet, si on s’en
contentait, cela impliquerait que l’on ne tient aucun compte de tout ce qui concerne la
description structurale des ´enonc´es.
C’est pourquoi a ´et´e introduite la notion d’´equivalence forte. Deux th´eories Tet T0sont
dites fortement ´equivalentes si et seulement si pour toute grammaire GiTil existe une
grammaire G0
jT0telle que Σ(Gi) = Σ(G0
j), et r´eciproquement. Cette fois, cependant,
le crit`ere est trop strict, car de simples diff´erences de notation rendraient des th´eories
non ´equivalentes, de mˆeme que de simples points de d´etail. Une th´eorie ne pourrait ˆetre
´equivalente qu’`a elle-mˆeme ! La question est donc de trouver un concept d’´equivalence
entre descriptions structurales qui soit moins rigide que la simple identit´e.
On propose donc la d´efinition suivante : deux th´eories Tet T0sont fortement ´equivalentes
si et seulement si :
(i) pour toute grammaire GiTil existe une grammaire G0
jT0telle qu’on puisse
´etablir une correspondance bijective entre Σ(Gi) et Σ(G0
j)
(ii) pour toute grammaire G0
jT0il existe une grammaire GiTtelle qu’on puisse
´etablir une correspondance bijective entre Σ(Gi) et Σ(G0
j)
Si seule la condition (i) est v´erifi´ee on dira que Test moins puissante que T0, si seule
(ii) est v´erifi´ee c’est T0qui est moins puissante que T.
1.2 Un parcours historique rapide
Nous reprenons dans cette partie les grandes lignes d’une approche historique des
cinquante derni`eres ann´ees, ´elabor´ee par Cori et Marandin (2001). On distinguera ci-
dessous quatre (( mouvements )): (a) l’´emergence du programme g´en´eratif et de la notion de
grammaire g´en´erative ; (b) le d´eveloppement de mod`eles pour le traitement automatique
qui vont rapidement devenir d´eclaratifs ; (c) le mouvement de r´eforme qui se cristallise
dans le refus de la forme transformationnelle de la grammaire ; (d) le d´eveloppement des
grammaires multidimensionnelles qui sont charg´ees d’int´egrer les analyses des dimensions
formelles (syntaxe et phonologie) et non formelles (s´emantique, pragmatique) des langues.
5
1 / 58 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !