anaSynAut (PDF, 329 Ko)

Téléchargement

Universit´e Paris Ouest - Nanterre - la D´efense

Universit´e Paris III - Sorbonne Nouvelle

INALCO

2010 - 2011

Analyse syntaxique automatique

Marcel Cori

1 Les probl`emes de l’analyse syntaxique

1.1 Introduction

1.1.1 L’analyse syntaxique en linguistique

L’activit´e du linguiste consiste, dit grossi`erement, `a donner une description des langues et

du langage. Il en r´esulte la construction de mod`eles th´eoriques et de grammaires ´ecrites dans ces

mod`eles. L’analyse syntaxique (automatique) constitue un dispositif exp´erimental permettant

de tester eﬀectivement ces gramaires d’une mani`ere objective.

La perspective de l’analyse syntaxique n´ecessite l’´ecriture de mod`eles parfaitement rigoureux

et pr´ecis´ement d´etaill´es.

1.1.2 L’analyse syntaxique en traitement automatique des langues (TAL)

On peut d´eﬁnir, de mani`ere tr`es simpliﬁ´ee, le TAL comme ´etant constitu´e des programmes

qui prennent pour donn´ees des productions langagi`eres, quand ces programmes tiennent compte

des sp´eciﬁcit´es des langues humaines.

L’analyse syntaxique occupe une place centrale dans les programmes de TAL qui s’appuient

sur la linguistique : si on d´ecompose les traitements en des successions de sous-traitements,

l’analyse syntaxique constitue un passage presque oblig´e, avec en amont des pr´etraitements qui

permettent d’obtenir des d´ecoupages en unit´es de l’ordre du mot, et en aval des tˆaches sp´eciﬁques

aux applications envisag´ees.

Historiquement, apr`es l’´echec reconnu de la traduction automatique, les algorithmes d’ana-

lyse syntaxique sont devenus, pendant les ann´ees 1960, l’axe des recherches en traitement auto-

matique. Ce qui a conduit, jusqu’au ann´ees 1980, au d´eveloppement de formalismes syntaxiques.

Actuellement, une importance moindre est donn´ee `a l’analyse syntaxique, en raison notamment

des diﬃcult´es qui ont ´et´e mises en ´evidence.

1.1.3 Analyse syntaxique et psycholinguistique

Les syst`emes d’analyse syntaxique peuvent avoir pour ambition de simuler le comportement

humain, mais ce n’est pas une obligation.

Quoi qu’il en soit, ils permettent une r´eﬂexion par la comparaison qui peut ˆetre eﬀectu´ee

entre les strat´egies d’analyse employ´ees par les machines et celles des ˆetres humains.

1.2 Le sch´ema th´eorique de l’analyse syntaxique

La donn´ee d’entr´ee doit ˆetre une phrase ou un ´enonc´e ayant subi des pr´etraitements et la

sortie une (ou plusieurs) repr´esentation(s) syntaxique(s) de cet ´enonc´e.

1.2.1 Sous quelle forme est l’´enonc´e `a analyser?

Selon les pr´etraitements qui pr´ec`edent (segmentation, analyse morphologique, ´etiquetage,

d´esambigu¨ısation), la donn´ee d’entr´ee de l’analyseur syntaxique peut ˆetre sous plusieurs formes :

(1) une suite de cat´egories syntaxiques, dont la structure est ´eventuellement complexe (cat´e-

gories accompagn´ees de traits, structures de traits, cat´egories au sens des grammaires cat´ego-

rielles,. . . ) ;

(2) une suite d’ensembles de cat´egories syntaxiques ;

(3) une suite de formes lexicales ;

(4) un ensemble de d´ecoupages diﬀ´erents, par exemple pour un ´enonc´e tel que :

Aujourd’hui l’arri`ere grand-p`ere sortira-t-il les pommes de terre?

1.2.2 L’information grammaticale

L’information grammaticale n´ecessaire `a l’analyse est contenue dans la grammaire et le

lexique, avec une r´epartition diﬀ´erente selon le degr´e de lexicalisation du mod`ele dans lequel

on se place.

La grammaire, s’il en existe une, est une donn´ee d’entr´ee de l’analyseur syntaxique. Le

lexique peut rester une donn´ee d’entr´ee, mais il peut aussi n’ˆetre pris en compte que dans les

pr´etraitements.

A noter que dans les premiers travaux d’analyse syntaxique la gramaire ´etait partie int´egrante

du programme. `

A l’heure actuelle, les donn´ees grammaticales, dissoci´ees des programmes, sont

fournies par un utilisateur privil´egi´e des programmes : l’(( expert )), qui connaˆıt les langues et/ou

les formalismes linguistiques.

1.2.3 Sous quelle forme est le r´esultat de l’analyse?

Le r´esultat de l’analyse syntaxique consiste en une (ou ´eventuellement plusieurs) struc-

tures syntaxiques, repr´esentatives de la phrase d’entr´ee. Les structures obtenues d´ependent

´evidemment du formalisme consid´er´e. Par exemple : un arbre syntagmatique, un arbre de d´epen-

dance, une structure de traits.

Par ailleurs, un (( sous-produit )) de l’analyse peut ˆetre la d´esambigu¨ısation de certaines

cat´egories syntaxiques.

1.3 Les m´ethodes

1.3.1 Analyses descendantes ou ascendantes

Deux types de m´ethodes, qui correspondent `a deux (( philosophies )) de l’analyse, sont pos-

sibles.

(1) Une analyse descendante, qui consiste `a postuler la forme que peuvent prendre les phrases,

et `a v´eriﬁer si l’´enonc´e `a analyser entre dans l’une des formes de phrases possibles.

(2) Une analyse ascendante, qui consiste `a partir des unit´es qui constituent l’´enonc´e, et `a

v´eriﬁer si des regroupements de ces unit´es sont possibles. En eﬀectuant des regroupements de

plus en plus grands, on tente d’obtenir des phrases.

1.3.2 La prise en compte des diﬀ´erentes possibilit´es

Les langues naturelles ´etant ambigu¨es, pour une mˆeme phrase plusieurs analyses sont pos-

sibles. Par exemple :

Il regarde le singe avec un t´el´escope

Mais, au cours du processus d’analyse, il peut apparaˆıtre diﬀ´erentes solutions (partielles)

dont certaines ne sont pas correctes. Par exemple, si on analyse les deux phrases qui suivent au

fur et `a mesure de leur lecture :

Paul a vu sa sœur et sa tante qui l’accompagnait

Paul a vu sa sœur et sa tante n’´etait pas contente

La gestion de cette multiplicit´e de solutions partielles peut s’eﬀectuer selon plusieurs types

de m´ethodes :

(1) Les m´ethodes avec retour en arri`ere : on fait des hypoth`eses, et si ces hypoth`eses s’av`erent

erron´ees `a un moment donn´e, on les abandonne et on en essaye d’autres.

(2) Les m´ethodes en parall`ele : on essaye les diﬀ´erentes hypoth`eses simultan´ement.

(3) Les m´ethodes d´eterministes : on emploie une strat´egie qui permet de faire le bon choix

au fur et `a mesure de l’analyse. Il est clair que ce type de m´ethodes ne permet pas de r´esoudre

le cas des phrases r´eellement ambigu¨es.

1.4 Les probl`emes

Les probl`emes se pr´esentent quand on veut analyser du vrai texte. Il y a deux probl`emes

essentiels et en fait contradictoires : si on veut s’attaquer `a l’un, on aggrave l’autre.

1.4.1 La couverture des grammaires

De nombreux ´enonc´es, pourtant parfaitement compris par des ˆetres humains, sont rejet´es

par les analyseurs parce qu’aucune repr´esentation n’en est possible selon les grammaires prises

en compte.

Il se peut que ce soient des ´enonc´es (( incorrects )) (mais qu’est-ce qu’un ´enonc´e incorrect?),

ou tout simplement que la couverture de la grammaire soit insuﬃsante : un type de construction

n’a pas ´et´e pr´evu.

La diﬃcult´e est qu’en accroissant la couverture des grammaires, on accroˆıt aussi le nombre

des ambigu¨ıt´es.

1.4.2 Les ambigu¨ıt´es

L’utilisation d’analyseurs qui s’appuient sur des grammaires cens´ees rendre compte d’un

fragment notable d’une langue conduit `a la prodction d’analyses ambigu¨es en une quantit´e telle

que l’int´erˆet de ces analyseurs est rendu douteux.

On peut distinguer plusieurs sortes d’ambigu¨ıt´es :

(1) Les ´enonc´es r´eellement ambigus : `a deux analyses distinctes correspondent deux sens

distincts. Par exemple :

Le boucher sale la tranche

Il mange une glace au caf´e

(2) Les ´enonc´es syntaxiquement ambigus, mais dont l’ambigu¨ıt´e est lev´ee par les locuteurs

humains `a l’aide de connaissances s´emantiques, ou de connaissances (extra-linguistiques) sur le

monde. Par exemple :

Il mange une glace au restaurant

Il mange une glace au chocolat

Le directeur de l’usine qui produit des tracteurs a t´el´ephon´e ce matin

Le directeur de l’usine qui fr´equente ta sœur a t´el´ephon´e ce matin

La sœur du policier qui a ´epous´e ton cousin a t´el´ephon´e ce matin

(3) Les ´enonc´es non ambigus mais qui sont analys´es comme ambigus en raison de la structure

de la grammaire. Par exemple, le petit chien blanc sera ambigu avec la CFG comportant les

r`egles :

SN →det N1

N1→adj N1

N1→N1adj

N1→N

(4) Les ´enonc´es analys´es comme ambigus parce que la division en cat´egories syntaxiques de

la grammaire est insuﬃsamment ﬁne. Par exemple :

Le boucher sale le tranche

Le ministre a re¸cu le conseiller ( vsLe ministre a pr´ef´er´e le conseiller)

Certaines ambigu¨ıt´es proviennent clairement de la tentative d’augmenter la couverture des

grammaires. Si par exemple on introduit dans une grammaire des r`egles permettant d’analyser

Jean est tr`es sieste

cela produira deux repr´esentations pour

Jean est tr`es calme

1.4.3 Les solutions

Aﬁn d’obtenir, malgr´e les diﬃcult´es, des informations sur la structure syntaxique des ´enonc´es,

il a ´et´e propos´e des m´ethodes moins ambitieuses :

- qui ne cherchent pas `a eﬀectuer l’analyse compl`ete des phrases, mais des analyses partielles.

Le chunk parsing (chunk = gros morceau) consiste `a s´eparer les phrases en des fragments qui

constituent des unit´es syntaxiques ;

- qui ne cherchent pas `a r´esoudre les ambigu¨ıt´es, mais `a les contourner.

Ces m´ethodes se rattachent `a ce qu’on appelle le TAL robuste, que l’on peut opposer `a un

(( TAL th´eorique )).

1 / 35 100%

anaSynAut (PDF, 329 Ko)

Téléchargement

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !

GDPR Confidentialité Conditions d'utilisation

anaSynAut (PDF, 329 Ko)

anaSynAut (PDF, 329 Ko)

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

anaSynAut (PDF, 329 Ko)

anaSynAut (PDF, 329 Ko)

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib