BROCHARD Hélène Université d’Orléans
L2 SDL Année 2006 2007
Introduction au TAL
Semestre 4 Enseignante : Madame ESHKOL
TAL Les étiqueteurs Hélène BROCHARD
2
Comparaison des étiqueteurs
Connexor, Pilaf et Xerox
Phrases à tester :
(1) Le petit cache le masque.
Cette phrase peut être problématique pour les étiqueteurs car elle est ambiguë. En effet, on a :
Le petit cache le masque.
Det N V Det N
Det Adj N Pro V
(2) Il chatte souvent avec ses amis.
Dans cette phrase, c’est le verbe « chatter » qui est susceptible de poser problème à
l’étiqueteur puisqu’il s’agit d’un emprunt.
(3) La SNCF propose de nombreux services à ses usagers.
Ici, c’est l’acronyme SNCF qui peut poser problème à l’étiqueteur puisque celui-ci ne le
connaît pas nécessairement.
TAL Les étiqueteurs Hélène BROCHARD
3
CONNEXOR
http://www.connexor.com/software/tagger/
Phrase (1) : le petit cache le masque.
Text
Baseform
Phrase syntax and part-of-speech
Le
le
premodifier, determiner
petit
petit
nominal head, noun, single-word noun phrase
cache
cacher
main verb, indicative present
le
le
premodifier, determiner
masque
masque
nominal head, noun, single-word noun phrase
.
.
sentence boundary
Analyse du résultat :
Le : déterminant, modifieur
petit : nom, tête du groupe nominal
cache : verbe à l’indicatif présent
le : déterminant, modifieur
masque : nom, tête du groupe nominal
. : limite de la phrase
Cet étiqueteur ne propose qu’une possibilité d’étiquetage pour la phrase alors qu’il y en a
deux. En effet, pour « petit », on ne trouve que nom, tête du groupe nominal alors qu’on
devrait aussi trouver adjectif qualificatif. De me, pour « cache », on a verbe à l’indicatif
présent uniquement or on devrait également avoir nom. Il en est de même pour « le » et
« masque » pour lesquels on devrait respectivement trouver pronom et verbe à l’indicatif
présent en plus de ce qui est indiqué ci-dessus.
Sur les deux solutions possibles, cet étiqueteur ne propose que la suivante :
Le petit cache le masque.
Det N V Det N
Hypothèse de solution :
Le résultat de l’étiquetage de la phrase (1) nous a montré que cet étiqueteur ne propose qu’une
solution, or dans le cas de phrases ambiguës comme celle-ci, ce n’est pas adapté. On peut
penser que cet étiqueteur a été conçu pour donner uniquement l’étiquette la plus probable et
dons ne fournir qu’une seule possibilité. Il faudrait peut-être le modifier de manière à ce qu’il
puisse donner toutes les étiquettes possibles pour un mot, au moins quand l’utilisateur le
souhaite.
TAL Les étiqueteurs Hélène BROCHARD
4
Phrase (2) : il chatte souvent avec ses amis.
Text
Baseform
Phrase syntax and part-of-speech
Il
il
nominal head, pro-nominal
chatte
chatte
main verb, indicative present
souvent
souvent
adverbial head, adverb
avec
avec
preposed marker, preposition
ses
son
premodifier, pro-nominal
amis
ami
nominal head, plural noun, single-word noun phrase
.
.
sentence boundary
Analyse du résultat :
Il : pronom, tête du groupe nominal
chatte : verbe à l’indicatif présent
souvent : adverbe, tête du groupe adverbial
avec : préposition
ses : pronom, modifieur
amis : nom pluriel, tête du groupe nominal
Cet étiqueteur a étiqueté correctement les différents mots de cette phrase sauf pour « ses »
il indique pronom alors qu’il s’agit d’un déterminant. En outre, on remarque que pour le mot
« chatte », il y a une erreur au niveau de la forme de base proposée puisqu’on trouve
« chatte » alors qu’on devrait avoir « chatter » puisqu’il s’agit de la forme infinitive du verbe.
On peut supposer que l’étiqueteur a pu fournir la bonne étiquette en s’appuyant sur le contexte
puisqu’il ne semble pas connaître ce verbe qui est un emprunt à la langue anglaise.
Hypothèse de solution :
La solution au problème d’étiquetage du mot « ses » serait que l’étiqueteur considère les
adjectifs possessifs comme des déterminants et non comme des pronoms. Il faudrait donc
modifier leur étiquette.
La seule solution qui me semble envisageable pour le problème du mot « chatter » serait de
fournir à l’étiqueteur l’information que c’est un verbe qui existe dans la langue française afin
qu’il puisse fournir les bonnes informations sur ce verbe. Cependant, cela signifie aussi qu’il
faudrait lui fournir tous les mots nouveaux qui apparaissent dans la langue, ce qui
demanderait énormément de travail et des mises à jour permanentes.
TAL Les étiqueteurs Hélène BROCHARD
5
Phrase (3) : La SNCF propose de nombreux services à ses usagers.
Text
Baseform
La
la
SNCF
SNCF
propose
proposer
de
de
nombreux
nombreux
services
service
à
à
ses
son
usagers
usager
.
.
Analyse du résultat :
La : déterminant, modifieur
SNCF : nom propre, tête du groupe nominal
propose : verbe à l’indicatif présent
de : déterminant, modifieur
nombreux : modifieur, adjectif
services : nom pluriel, tête du groupe nominal
à : préposition
usagers : nom pluriel, tête du groupe nominal
On peut remarquer que l’étiqueteur s’est trompé pour « SNCF » puisqu’il indique que c’est un
nom propre alors que ce n’est pas le cas puisqu’il s’agit en fait d’un nom commun. On peut
penser que l’erreur vient du fait que l’étiqueteur ne connaît pas cet acronyme et s’est donc
servi qu contexte pour lui attribuer une étiquette. Il aurait alors mis que c’était un nom car il
est après un déterminant et avant un verbe, et que c’est un nom propre à cause des majuscules.
Hypothèse de solution :
Afin d’éviter cette erreur pour le nom « SNCF », il faudrait certainement entrer ce nom dans
la base de données utilisée par l’étiqueteur. Cependant, cela signifie qu’il faudrait également y
entrer les autres acronymes de la langue française, or ceci parait assez difficile puisqu’il y en a
beaucoup et que de nouveaux apparaissent régulièrement.
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !