Universit´e Paris Ouest - Nanterre - la D´efense
Universit´e Paris III - Sorbonne Nouvelle
INALCO
2010 - 2011
Analyse syntaxique automatique
Marcel Cori
1 Les probl`emes de l’analyse syntaxique
1.1 Introduction
1.1.1 L’analyse syntaxique en linguistique
L’activit´e du linguiste consiste, dit grossi`erement, `a donner une description des langues et
du langage. Il en r´esulte la construction de mod`eles th´eoriques et de grammaires ´ecrites dans ces
mod`eles. L’analyse syntaxique (automatique) constitue un dispositif exp´erimental permettant
de tester effectivement ces gramaires d’une mani`ere objective.
La perspective de l’analyse syntaxique n´ecessite l’´ecriture de mod`eles parfaitement rigoureux
et pr´ecis´ement d´etaill´es.
1.1.2 L’analyse syntaxique en traitement automatique des langues (TAL)
On peut d´efinir, de mani`ere tr`es simplifi´ee, le TAL comme ´etant constitu´e des programmes
qui prennent pour donn´ees des productions langagi`eres, quand ces programmes tiennent compte
des sp´ecificit´es des langues humaines.
L’analyse syntaxique occupe une place centrale dans les programmes de TAL qui s’appuient
sur la linguistique : si on d´ecompose les traitements en des successions de sous-traitements,
l’analyse syntaxique constitue un passage presque oblig´e, avec en amont des pr´etraitements qui
permettent d’obtenir des d´ecoupages en unit´es de l’ordre du mot, et en aval des tˆaches sp´ecifiques
aux applications envisag´ees.
Historiquement, apr`es l’´echec reconnu de la traduction automatique, les algorithmes d’ana-
lyse syntaxique sont devenus, pendant les ann´ees 1960, l’axe des recherches en traitement auto-
matique. Ce qui a conduit, jusqu’au ann´ees 1980, au d´eveloppement de formalismes syntaxiques.
Actuellement, une importance moindre est donn´ee `a l’analyse syntaxique, en raison notamment
des difficult´es qui ont ´et´e mises en ´evidence.
1.1.3 Analyse syntaxique et psycholinguistique
Les syst`emes d’analyse syntaxique peuvent avoir pour ambition de simuler le comportement
humain, mais ce n’est pas une obligation.
Quoi qu’il en soit, ils permettent une r´eflexion par la comparaison qui peut ˆetre effectu´ee
entre les strat´egies d’analyse employ´ees par les machines et celles des ˆetres humains.
1.2 Le scema th´eorique de l’analyse syntaxique
La donn´ee d’entr´ee doit ˆetre une phrase ou un ´enonc´e ayant subi des pr´etraitements et la
sortie une (ou plusieurs) repr´esentation(s) syntaxique(s) de cet ´enonc´e.
2
1.2.1 Sous quelle forme est l’´enonc´e `a analyser?
Selon les pr´etraitements qui pr´ec`edent (segmentation, analyse morphologique, ´etiquetage,
d´esambigu¨ısation), la donn´ee d’entr´ee de l’analyseur syntaxique peut ˆetre sous plusieurs formes :
(1) une suite de cat´egories syntaxiques, dont la structure est ´eventuellement complexe (cat´e-
gories accompagn´ees de traits, structures de traits, cat´egories au sens des grammaires cat´ego-
rielles,. . . ) ;
(2) une suite d’ensembles de cat´egories syntaxiques ;
(3) une suite de formes lexicales ;
(4) un ensemble de d´ecoupages diff´erents, par exemple pour un ´enonc´e tel que :
Aujourd’hui l’arri`ere grand-p`ere sortira-t-il les pommes de terre?
1.2.2 L’information grammaticale
L’information grammaticale n´ecessaire `a l’analyse est contenue dans la grammaire et le
lexique, avec une r´epartition diff´erente selon le degr´e de lexicalisation du mod`ele dans lequel
on se place.
La grammaire, s’il en existe une, est une donn´ee d’entr´ee de l’analyseur syntaxique. Le
lexique peut rester une donn´ee d’entr´ee, mais il peut aussi n’ˆetre pris en compte que dans les
pr´etraitements.
`
A noter que dans les premiers travaux d’analyse syntaxique la gramaire ´etait partie int´egrante
du programme. `
A l’heure actuelle, les donn´ees grammaticales, dissoci´ees des programmes, sont
fournies par un utilisateur privil´egi´e des programmes : l’(( expert )), qui connaˆıt les langues et/ou
les formalismes linguistiques.
1.2.3 Sous quelle forme est le r´esultat de l’analyse?
Le r´esultat de l’analyse syntaxique consiste en une (ou ´eventuellement plusieurs) struc-
tures syntaxiques, repr´esentatives de la phrase d’entr´ee. Les structures obtenues d´ependent
´evidemment du formalisme consid´er´e. Par exemple : un arbre syntagmatique, un arbre de d´epen-
dance, une structure de traits.
Par ailleurs, un (( sous-produit )) de l’analyse peut ˆetre la d´esambigu¨ısation de certaines
cat´egories syntaxiques.
1.3 Les m´ethodes
1.3.1 Analyses descendantes ou ascendantes
Deux types de m´ethodes, qui correspondent `a deux (( philosophies )) de l’analyse, sont pos-
sibles.
(1) Une analyse descendante, qui consiste `a postuler la forme que peuvent prendre les phrases,
et `a v´erifier si l’´enonc´e `a analyser entre dans l’une des formes de phrases possibles.
(2) Une analyse ascendante, qui consiste `a partir des unit´es qui constituent l’´enonc´e, et `a
v´erifier si des regroupements de ces unit´es sont possibles. En effectuant des regroupements de
plus en plus grands, on tente d’obtenir des phrases.
3
1.3.2 La prise en compte des diff´erentes possibilit´es
Les langues naturelles ´etant ambigu¨es, pour une mˆeme phrase plusieurs analyses sont pos-
sibles. Par exemple :
Il regarde le singe avec un t´el´escope
Mais, au cours du processus d’analyse, il peut apparaˆıtre diff´erentes solutions (partielles)
dont certaines ne sont pas correctes. Par exemple, si on analyse les deux phrases qui suivent au
fur et `a mesure de leur lecture :
Paul a vu sa sœur et sa tante qui l’accompagnait
Paul a vu sa sœur et sa tante n’´etait pas contente
La gestion de cette multiplicit´e de solutions partielles peut s’effectuer selon plusieurs types
de ethodes :
(1) Les m´ethodes avec retour en arri`ere : on fait des hypoth`eses, et si ces hypoth`eses s’av`erent
erron´ees `a un moment donn´e, on les abandonne et on en essaye d’autres.
(2) Les m´ethodes en parall`ele : on essaye les diff´erentes hypoth`eses simultan´ement.
(3) Les m´ethodes d´eterministes : on emploie une strat´egie qui permet de faire le bon choix
au fur et `a mesure de l’analyse. Il est clair que ce type de m´ethodes ne permet pas de r´esoudre
le cas des phrases r´eellement ambigu¨es.
1.4 Les probl`emes
Les probl`emes se pr´esentent quand on veut analyser du vrai texte. Il y a deux probl`emes
essentiels et en fait contradictoires : si on veut s’attaquer `a l’un, on aggrave l’autre.
1.4.1 La couverture des grammaires
De nombreux ´enonc´es, pourtant parfaitement compris par des ˆetres humains, sont rejet´es
par les analyseurs parce qu’aucune repr´esentation n’en est possible selon les grammaires prises
en compte.
Il se peut que ce soient des ´enonc´es (( incorrects )) (mais qu’est-ce qu’un ´enonc´e incorrect?),
ou tout simplement que la couverture de la grammaire soit insuffisante : un type de construction
n’a pas ´et´e pr´evu.
La difficult´e est qu’en accroissant la couverture des grammaires, on accroˆıt aussi le nombre
des ambigu¨ıt´es.
1.4.2 Les ambigu¨ıt´es
L’utilisation d’analyseurs qui s’appuient sur des grammaires cens´ees rendre compte d’un
fragment notable d’une langue conduit `a la prodction d’analyses ambigu¨es en une quantit´e telle
que l’int´erˆet de ces analyseurs est rendu douteux.
On peut distinguer plusieurs sortes d’ambigu¨ıt´es :
(1) Les ´enonc´es r´eellement ambigus : `a deux analyses distinctes correspondent deux sens
distincts. Par exemple :
Le boucher sale la tranche
4
Il mange une glace au caf´e
(2) Les ´enonc´es syntaxiquement ambigus, mais dont l’ambigu¨ıt´e est lev´ee par les locuteurs
humains `a l’aide de connaissances s´emantiques, ou de connaissances (extra-linguistiques) sur le
monde. Par exemple :
Il mange une glace au restaurant
Il mange une glace au chocolat
Le directeur de l’usine qui produit des tracteurs a t´el´ephon´e ce matin
Le directeur de l’usine qui fr´equente ta sœur a t´el´ephon´e ce matin
La sœur du policier qui a ´epous´e ton cousin a t´el´ephon´e ce matin
(3) Les ´enonc´es non ambigus mais qui sont analys´es comme ambigus en raison de la structure
de la grammaire. Par exemple, le petit chien blanc sera ambigu avec la CFG comportant les
r`egles :
SN det N1
N1adj N1
N1N1adj
N1N
(4) Les ´enonc´es analys´es comme ambigus parce que la division en cat´egories syntaxiques de
la grammaire est insuffisamment fine. Par exemple :
Le boucher sale le tranche
Le ministre a rcu le conseiller ( vsLe ministre a pr´ef´er´e le conseiller)
Certaines ambigu¨ıt´es proviennent clairement de la tentative d’augmenter la couverture des
grammaires. Si par exemple on introduit dans une grammaire des r`egles permettant d’analyser
Jean est tr`es sieste
cela produira deux repr´esentations pour
Jean est tr`es calme
1.4.3 Les solutions
Afin d’obtenir, malgr´e les difficult´es, des informations sur la structure syntaxique des ´enonc´es,
il a ´et´e propos´e des m´ethodes moins ambitieuses :
- qui ne cherchent pas `a effectuer l’analyse compl`ete des phrases, mais des analyses partielles.
Le chunk parsing (chunk = gros morceau) consiste `a s´eparer les phrases en des fragments qui
constituent des unit´es syntaxiques ;
- qui ne cherchent pas `a r´esoudre les ambigu¨ıes, mais `a les contourner.
Ces m´ethodes se rattachent `a ce qu’on appelle le TAL robuste, que l’on peut opposer `a un
(( TAL th´eorique )).
5
1 / 35 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !