UNIVERSITÉ DE MONTRÉAL
IDENTIFICATION DE LA RELATION SÉMANTIQUE SOUS-JACENTE DES NOMS
COMPOSÉS
THIERRY BÉLAIR
DÉPARTEMENT DE GÉNIE INFORMATIQUE ET GÉNIE LOGICIEL
ÉCOLE POLYTECHNIQUE DE MONTRÉAL
MÉMOIRE PRÉSENTÉ EN VUE DE L’OBTENTION
DU DIPLÔME DE MAÎTRISE ÈS SCIENCES APPLIQUÉES
(GÉNIE INFORMATIQUE)
NOVEMBRE 2014
c
Thierry Bélair, 2014.
UNIVERSITÉ DE MONTRÉAL
ÉCOLE POLYTECHNIQUE DE MONTRÉAL
Ce mémoire intitulé :
IDENTIFICATION DE LA RELATION SÉMANTIQUE SOUS-JACENTE DES NOMS
COMPOSÉS
présenté par : BÉLAIR Thierry
en vue de l’obtention du diplôme de : Maîtrise ès sciences appliquées
a été dûment accepté par le jury d’examen constitué de :
M. DESMARAIS Michel C., Ph.D., président
M. GAGNON Michel, Ph.D., membre et directeur de recherche
Mme BARRIÈRE Caroline, Ph.D., membre et codirectrice de recherche
Mme KOSSEIM Leila, Ph.D., membre
iii
DÉDICACE
Je dédie ce mémoire à deux orchestres de Montréal,
l’Orchestre de jeux vidéos et l’Orchestre à vent de musique de film,
puisqu’ils ont rendu mélodieuse sa rédaction.
iv
REMERCIEMENTS
Merci à mes collègues du Centre de recherche informatique de Montréal pour l’accueil cha-
leureux.
Ce travail n’aurait pas été possible sans l’apport financier du gouvernement provincial et
fédéral et de l’entreprise 3CE (www.3ceonline.com).
Merci à Chistophe Botek, Konstantinos Lambrou-Latreille, Caroline Barrière et Michel Ga-
gnon pour les longues heures d’annotation de noms composés.
Merci aux associations étudiantes qui défendent constamment mes droits d’étudiant univer-
sitaire.
Ma gratitude pour Louise Demers dépasse le cadre de ce simple mémoire, mais je tiens à la
remercier d’avoir été ma guide et mon modèle dans les études aux cycles supérieurs.
v
RÉSUMÉ
Les descriptions de produits d’inventaire, dans l’industrie d’importation/exportation, comptent
beaucoup de noms composés, des paires de noms ayant une signification particulière. Nous
pourrions mieux comprendre la description, et classer le produit, s’il était possible de com-
prendre les noms composés dans leur ensemble : deux noms et une relation qui les relie,
implicite. Par exemple, le nom composé olive oil peut être interprété avec la paraphrase oil
that comes from olive, qui rend explicite la relation de provenance entre olive et oil. Selon
Levi (Levi, 1978), douze relations sémantiques sont possibles pour un nom composé.
Dans cette recherche, nous reproduisons presque en totalité l’expérience de Nakov (Nakov
and Hearst, 2008). À partir d’un nom composé, il génère des requêtes à Google pour obtenir
des textes où les deux noms du nom composé sont en relation. Les verbes et particules qui
relient les deux noms sont regroupés dans une liste d’éléments prédicatifs, appelée vecteur
prédicatif. Le nom composé est ensuite comparé à d’autres noms composés dont la relation
est connu, les noms composés de référence.
Malheureusement, depuis 2011, la collecte des textes d’internet en utilisant Google n’est plus
possible. Notre objectif est donc de rendre indépendant du moteur de recherche de Google
l’identification de la relation de nom composé en maintenant le même taux de succès pour
l’identification de relation que Nakov. Nous faisons l’hypothèse que nous pouvons identifier
la relation sémantique grâce aux textes trouvés sur Wikipédia, sur Faroo, sur Yahoo ou dans
les n-grammes de Google.
Nous modifions le protocole en plusieurs points. Nous utilisons d’autres corpus. Nous enrichis-
sons la requête avec différents synonymes. Nous refaisons l’expérience avec d’autres vecteurs
de référence. Nous modifions la comparaison entre vecteurs de référence et vecteurs du cor-
pus. Finalement, nous essayons aussi des façons différentes de choisir la relation sémantique
à partir des résultats précédents.
Nous testons le succès de notre prototype de trois façons : en utilisant les noms composés de
référence (par Leave-one-out), en utilisant les même noms composés, mais reclassifiés et en
utilisant 417 nouveaux noms composés.
Nous atteignons au mieux le taux de succès de 33% alors que Nakov rapporte celui de 43%.
Malgré les nombreuses possibilités d’amélioration, nos résultats actuels sont significativement
en dessous des résultats de la littérature. Il nous faut conclure que dans l’état actuel, l’implé-
mentation de l’approche de Nakov sans le grand nombre de documents indexés par Google
1 / 158 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !