
v
RÉSUMÉ
Les descriptions de produits d’inventaire, dans l’industrie d’importation/exportation, comptent
beaucoup de noms composés, des paires de noms ayant une signification particulière. Nous
pourrions mieux comprendre la description, et classer le produit, s’il était possible de com-
prendre les noms composés dans leur ensemble : deux noms et une relation qui les relie,
implicite. Par exemple, le nom composé olive oil peut être interprété avec la paraphrase oil
that comes from olive, qui rend explicite la relation de provenance entre olive et oil. Selon
Levi (Levi, 1978), douze relations sémantiques sont possibles pour un nom composé.
Dans cette recherche, nous reproduisons presque en totalité l’expérience de Nakov (Nakov
and Hearst, 2008). À partir d’un nom composé, il génère des requêtes à Google pour obtenir
des textes où les deux noms du nom composé sont en relation. Les verbes et particules qui
relient les deux noms sont regroupés dans une liste d’éléments prédicatifs, appelée vecteur
prédicatif. Le nom composé est ensuite comparé à d’autres noms composés dont la relation
est connu, les noms composés de référence.
Malheureusement, depuis 2011, la collecte des textes d’internet en utilisant Google n’est plus
possible. Notre objectif est donc de rendre indépendant du moteur de recherche de Google
l’identification de la relation de nom composé en maintenant le même taux de succès pour
l’identification de relation que Nakov. Nous faisons l’hypothèse que nous pouvons identifier
la relation sémantique grâce aux textes trouvés sur Wikipédia, sur Faroo, sur Yahoo ou dans
les n-grammes de Google.
Nous modifions le protocole en plusieurs points. Nous utilisons d’autres corpus. Nous enrichis-
sons la requête avec différents synonymes. Nous refaisons l’expérience avec d’autres vecteurs
de référence. Nous modifions la comparaison entre vecteurs de référence et vecteurs du cor-
pus. Finalement, nous essayons aussi des façons différentes de choisir la relation sémantique
à partir des résultats précédents.
Nous testons le succès de notre prototype de trois façons : en utilisant les noms composés de
référence (par Leave-one-out), en utilisant les même noms composés, mais reclassifiés et en
utilisant 417 nouveaux noms composés.
Nous atteignons au mieux le taux de succès de 33% alors que Nakov rapporte celui de 43%.
Malgré les nombreuses possibilités d’amélioration, nos résultats actuels sont significativement
en dessous des résultats de la littérature. Il nous faut conclure que dans l’état actuel, l’implé-
mentation de l’approche de Nakov sans le grand nombre de documents indexés par Google