METHODES D'APPRENTISSAGE POUR L "ANALYSE AUTOMATIQUE
MORPHOSYNTAXIQUE ET LEXICALE-SENANTIQUE DE LA LANGUE ESPAGNOLE
A.Andreewsky +, M.Desi, C.Pluhr
+LIMSI -CNRS, B.P.30, 91406 Orsay, Prance
S,m.ary: TRAINING I~ETHODS YOR THE AUTONATIC MORPHOSTNTACTIC
AND LEXICO-SmIANTIC ANALYHIS OP SPANISH
We describe herein the setting up of an automatic morpho-
syntactic and lexico-semantlc analysis system for Spanish.
This system uses learning methods analogous to those used for
French (of. Andreewski etal.: 1973, Dunod, 1974 and 1977
IFIP proceedings).
The learning is going on step by step (I.000 words each)
a~d a syntactical parsing (specific
to
Spanish)
attributes
~ammatical labels to specific words and suffixes, chosen for
their low rate of grammatical ambiguities.
An ambiguity accumulation dictionary and morphosyntactic
rules allowing for the resolution of these ambiguities are ob-
tained aut~natically. They are progressively stabilized with
the growing of the corpus.
The method is discussed:
- first, how to obtain lexico-semantic relations by filtering
methods !
-
second, how to handle the linguistic processing in Spanish
with the nSPIRIT" automatic system (indexing and retrieval
in natural language ).
INTHODUCTION
I~opos6e en 1971-72 dans le but de r~soudre un certain
niveau d'smbigu~t~8 du lsngage, la m~thode d'apprentissage que
nous appliquons ici ~ la langue espagnole est tr~s analogue
cells utilis6e pour la langue fran~aise et pour laquelle de
tr~s bons r~sultats ont ~t~ obtenus (1).
Rappelons qus le concept d'apprentissage auquel nous fai-
sons appel repose su~r le fair que dang route chains lexicale
des ambigu~t6s apparaissent constamment, st que l'on dolt sup-
poser (pour l'hc~ne) qu°~ chaqus fois dee procedures de d6sam-
biguation sont dynamiquement raises en oeuvre pour lee traiter.
- 11 -
L'smbigu~t6 que l'on traite est celle
qui
provient de la
~utilisation d'un m~e mot ou ~oupe de mote aveo des valeurs
syntaxiquee (cat~gorieation ~ammaticale) ou s~mantiquee dif-
f6rentes. Pou~ un traitement satiefaisant de cos smbigu'~t~s
dane lee applications ~ 1 °lndexation autcmatique et l'inter-
rogation de bases de donn~es en langage naturel, on a ~tg
smen~ ~ formuler deux hypotheses eseentielles-
- le oontexte limitg aux termes voisins dolt pemettre de lever
un nomb~ tr~s important d'ambigu~t6s syntsxiques;
- l°6tiquetage g~a~.natical du texte dolt permettre d'obtenir
pa~ "flltrage" d~s relations ditee "lexicales s~mantiques"
et de traiter lee ambigu[t~s 86mantiques. (Hypotheses qui su~
le frangai8 ont donn~ de bone r~sultats.)
D'autre part le texts d'apprentise~e espaF~ol est aeeum-
pagn6 de la traduction correspondante frangaise, afin de sioux
6tudier et pr~cieer lee probl~nes de la micro-idi~.atique dane
le prooessus de la traduotion (pas n~oessairement automatique).
LA METHODE D "APPRENTISSAG~
Le principe de la m~thode d'apprentlssaEe , largement d~-
orit dan- (I), est le suivant: on analyse manuellement un
taxte T dit d*"apprentiesage" aocompagn6 de sa traduction,
d'une analyse de te~minaison et "d'une analyse grammaticale,
comae eels est indiqu~ dane l'exemple ei-deeeous o~ l'on
trouve: dane la p~emi~e eolonne le texte T lui-meme, dane la
deuxi~me colonne ls traduotion, dang la t~oisi~me colonne la
tezminaison ~ventuelle du mot espagnol, et dane la quatri~ne
eollone le cat~gorie ETammatlcale r~alis~e dane le texte.
a emarq
ue,9:
1. On s'efforcs de fairs use traduo~ion aussi proohe que pos-
sible
du texts, maim intelligible. Lee mote indispensables
l'intelliglbilit~ et qui ne sent pae dane le texts
espagnol, sent mis entre parentheses en frangale.
2. Lee terminaisons sent ehoisies en fonction de leu~ ca~ac-
tore diecrimiDant, c "est-a-di~e qu'elles ne sent caraotd-
ristiques que d °use seule ear,Eerie ~smmaticale en g~n~ral,
- 12 -
3.
de~x au plus. Si elles ont deux catSgories gra~naticales,
il eat euppoa~ que le contexte voisin permettra de lever
l°ambigu~t~, oe qua.
set
v~rifi~ dane l'autocoh6rence.
Des rar~ements par ordre elphab~tiqae de chaoune des quatre
oolonnes, pe~ettent au tours de l'apprentissage de v~ri-
fier la qualit~ du codage ~ savoir: correction des erreurs
ortho~aphiques, inooh~rences dane lee codes grammatioaax
dane la terminaison (deux tre~n~naisons diff~rentes pour
unmeme mot) dane la traduotion.
como comma ~ conjonction subordination
son (iIs) sont ~ verbe d'~tat indicatif
interesantes int~ressants antes attribut
para pour ~ pr~position
topos tous ~ pronom g~n~ral compl~ment
los les ~ article d~fini
documentos documents mentos substantif
no ne ~ n~gation no
estan sont (pas) ~ verbe d'~tat indicatif
en dans ~ pr~position
la la ~ article d~fini
biblioteca biblioth~que teca substantif
sino mais ~ ~l~ment de la n~gation
sobre sur ~ pr~position
la la ~ article d~fini
mesa table ~ substantif.
Un grand nanbre de mote de oette phrase sont
ambigus,
comme on psut le constater en examinant lee phrases qv~t
sui-
vent: ba~lar al son
de guitarra; como una naranJa; el tiempo
se para y mi sino se Juega abora; los heohos ~nportantes son
los de la exper~nentac~on; la ouenta est~ en el sobre; el la
y
el mt de mi p~ano suenan
~l.
Si ensuite, ~ partir du texte d°apprentissage, on oonsti-
tue un dictionaire de ¢~nul, il aura la forms (loi ne
figurent qua lea mote mnbigue):
como : conjonction de subordination, verbe indicatif, ...
]a : article d~fini, substantif, ...
]os : article d~fini, pronom attribut, ...
para : pr~position, verbe conjugu~, ...
sino : pr~position, substantif ....
sobre : pr~position, substantif ....
son : verbe ~tat indicatif, substantif, ...
- 13 -
De meme, eet oonstttu~ un dlottonatre de o~ul dee
tezmtnateons, par exemple=
antes : attribut, adjectif post~rieur, substantif
mentos . : substantif
teca : substantif
D6s que le texte dev£ent aeeez long, 1el 1tome lexloa~x
ee renoontrent aveo des 6ttquettes eyntaxtquee et des aooep-
ttons dtff~rentee, male pour lee termtnaleons cola ee product
aeeez rite° C "est po~luo$ on a effeotu6 un apprentleeaEe
m~te qu~ porte ~ la lots tur lee mote pletns sans te~nfnalson,
lee terminaleons et lee mote relatlonnele.
A partir du tezte t~Lttal Tet du dlotlo~atre de oumul,
un texte ambtgu T A eet
or~
(leeterminateons eont pr6o~d~ee
d'un ttret)o ll a la forme=
como
son
-antes
para
todos
los
-mentos
no
estan
en
]a
-teca
sine
sobre
la
mesa
(conjonction de subordination, verbe indicatif)
(verbe ~tat indicatif, substantif)
(attribut, adjectif po~t~rieur, substantif)
(pr~position, verbe conjugu~)
(pronom g~n~ral compl~ment)
(article d~fini, prenom attribut)
(substantif)
(n~gation no)
(verbe d'~tat indicatif)
(proposition)
(article d~fini, substantif)
(substantif)
(~l~ment de la n~gation, substantif) "
(prOposition, substantif)
(article d~fini, substantif)
(substantif)
Et la comparateon de Tet T~ permet d'obte~t~ des r~gles de
r6eolutlon qut par exemple ~ l'ordre trois ~veo le texte
choet auront la £o~ne-
(oon~ sub, verb tnd) w (verb 6tat tnd, eubetanttf) zt (attrtbut,
ad~ p,eubetanttf)
oh l°aet~rteque ~ se lit: eatvt de, et oh noue avons eurltgn~
lee ~eoluttons obtenuee pa~ ¢omparaieon de T A aveo T. On re-
marque que (attrfbut, adJ p, cuber) eet une amblg~t~ o~ul~e
par une termtnaison.
- 14 -
RESULTATS ET CONCLUSIONS
Le corpus d "apprentissage a ~t6 cons#itu6 ~ partlr de
textes varies lltt~raires ou soientifiques. II eat actuelle-
ment de olnq mille mote, se qua nousa amen~ ~ effec~uer, une
oat~gorisation grsmmaticale assez complete (120 categories
aotuellement) et hOe a permis d'obtenir une diversit~ syntaxi-
que suffieante pour lee applloations envlsag~es.
Cee dernl~res sont
essentlellement
orlent~es vers 1 "In-
dexatlon
autometlque
et 1 "interrogation en langage naturel
dane le cadre du syst~m~SPIHIT qul impose tout d'abord une
normalleatlon oorreote dee mote du texts afin d "en feire des
oomptages ooh~rents, Pour obtenir cette normalisation, on sup-
pose que sont identlfi~s les elnguliers et plurlels dee sub-
stantifs, lee flexions de la conJugalson, eto.o, ce qui dolt
A
~tre fair en relation aveo l'analyse syntaxique, grace ~.~
A
dio~ionnaire en formes completes du meme type que le diction-
--ire de ou~ul d~crit plus haut, La normalisation ee fait
alors euivant le schema:
tsxte+ lexique en formee o0mpl~tes -~ texte embigu -~ eyntaxe ->
"F normalisatlon
D'autrs part t Is syst~me SPIRIT prend en compte lee mote com-
pOS~S qui, grace ala syntexe d~crlte, peuvent e~re obtenue
par filtrage. Ce problems a 6t6 ~tudi6 par ocmparaieon aveo
lem m~thodee ~tudi~ee en fran@ale.
Rappelons que (2) le filtrable ooneiste ~ trier aut~natique-
ment l'ensemble des oba~nes du corpus de structure grammatioale
dorm, s: par exemple :
substantif ~ ad~sotif
sstudlos metalogr~fioos
eubstantif ~ del ~ eubetantif: energla dsl ~tomo
subetantif ~ adJectif ~ de la ~ eubetantif: control
conetente de la radiactividad
inflnitif ~ lee ~ eubstantif a edJectif: absorber las
radiaolonee peligroeas
- 15 -
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !