Identification de la relation sémantique sous

Téléchargement

UNIVERSITÉ DE MONTRÉAL

IDENTIFICATION DE LA RELATION SÉMANTIQUE SOUS-JACENTE DES NOMS

COMPOSÉS

THIERRY BÉLAIR

DÉPARTEMENT DE GÉNIE INFORMATIQUE ET GÉNIE LOGICIEL

ÉCOLE POLYTECHNIQUE DE MONTRÉAL

MÉMOIRE PRÉSENTÉ EN VUE DE L’OBTENTION

DU DIPLÔME DE MAÎTRISE ÈS SCIENCES APPLIQUÉES

(GÉNIE INFORMATIQUE)

NOVEMBRE 2014

Thierry Bélair, 2014.

UNIVERSITÉ DE MONTRÉAL

ÉCOLE POLYTECHNIQUE DE MONTRÉAL

Ce mémoire intitulé :

IDENTIFICATION DE LA RELATION SÉMANTIQUE SOUS-JACENTE DES NOMS

COMPOSÉS

présenté par : BÉLAIR Thierry

en vue de l’obtention du diplôme de : Maîtrise ès sciences appliquées

a été dûment accepté par le jury d’examen constitué de :

M. DESMARAIS Michel C., Ph.D., président

M. GAGNON Michel, Ph.D., membre et directeur de recherche

Mme BARRIÈRE Caroline, Ph.D., membre et codirectrice de recherche

Mme KOSSEIM Leila, Ph.D., membre

iii

DÉDICACE

Je dédie ce mémoire à deux orchestres de Montréal,

l’Orchestre de jeux vidéos et l’Orchestre à vent de musique de ﬁlm,

puisqu’ils ont rendu mélodieuse sa rédaction.

REMERCIEMENTS

Merci à mes collègues du Centre de recherche informatique de Montréal pour l’accueil cha-

leureux.

Ce travail n’aurait pas été possible sans l’apport ﬁnancier du gouvernement provincial et

fédéral et de l’entreprise 3CE (www.3ceonline.com).

Merci à Chistophe Botek, Konstantinos Lambrou-Latreille, Caroline Barrière et Michel Ga-

gnon pour les longues heures d’annotation de noms composés.

Merci aux associations étudiantes qui défendent constamment mes droits d’étudiant univer-

sitaire.

Ma gratitude pour Louise Demers dépasse le cadre de ce simple mémoire, mais je tiens à la

remercier d’avoir été ma guide et mon modèle dans les études aux cycles supérieurs.

RÉSUMÉ

Les descriptions de produits d’inventaire, dans l’industrie d’importation/exportation, comptent

beaucoup de noms composés, des paires de noms ayant une signiﬁcation particulière. Nous

pourrions mieux comprendre la description, et classer le produit, s’il était possible de com-

prendre les noms composés dans leur ensemble : deux noms et une relation qui les relie,

implicite. Par exemple, le nom composé olive oil peut être interprété avec la paraphrase oil

that comes from olive, qui rend explicite la relation de provenance entre olive et oil. Selon

Levi (Levi, 1978), douze relations sémantiques sont possibles pour un nom composé.

Dans cette recherche, nous reproduisons presque en totalité l’expérience de Nakov (Nakov

and Hearst, 2008). À partir d’un nom composé, il génère des requêtes à Google pour obtenir

des textes où les deux noms du nom composé sont en relation. Les verbes et particules qui

relient les deux noms sont regroupés dans une liste d’éléments prédicatifs, appelée vecteur

prédicatif. Le nom composé est ensuite comparé à d’autres noms composés dont la relation

est connu, les noms composés de référence.

Malheureusement, depuis 2011, la collecte des textes d’internet en utilisant Google n’est plus

possible. Notre objectif est donc de rendre indépendant du moteur de recherche de Google

l’identiﬁcation de la relation de nom composé en maintenant le même taux de succès pour

l’identiﬁcation de relation que Nakov. Nous faisons l’hypothèse que nous pouvons identiﬁer

la relation sémantique grâce aux textes trouvés sur Wikipédia, sur Faroo, sur Yahoo ou dans

les n-grammes de Google.

Nous modiﬁons le protocole en plusieurs points. Nous utilisons d’autres corpus. Nous enrichis-

sons la requête avec diﬀérents synonymes. Nous refaisons l’expérience avec d’autres vecteurs

de référence. Nous modiﬁons la comparaison entre vecteurs de référence et vecteurs du cor-

pus. Finalement, nous essayons aussi des façons diﬀérentes de choisir la relation sémantique

à partir des résultats précédents.

Nous testons le succès de notre prototype de trois façons : en utilisant les noms composés de

référence (par Leave-one-out), en utilisant les même noms composés, mais reclassiﬁés et en

utilisant 417 nouveaux noms composés.

Nous atteignons au mieux le taux de succès de 33% alors que Nakov rapporte celui de 43%.

Malgré les nombreuses possibilités d’amélioration, nos résultats actuels sont signiﬁcativement

en dessous des résultats de la littérature. Il nous faut conclure que dans l’état actuel, l’implé-

mentation de l’approche de Nakov sans le grand nombre de documents indexés par Google

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

1 / 158 100%

Documents connexes

Guide Rapport de Stage en Anglais : Collège/Lycée

Anglais quelques erreurs a eviter

Practice on fruits and veggies: Write out the following sentences in

Made in China

Le Marketing International - Rhone

WEEK 15

Mention "Made in" - Entreprise Europe Sud Ouest France

As = comme = like

Le grand voyage notes

une banane

Résumé

Mondialisation des chaînes productives industrielles et mesure du

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Identification de la relation sémantique sous

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Identification de la relation sémantique sous

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib