Etude de la synonymie par l`extraction de

Téléchargement

Etude de la synonymie par l’extraction de composantes

N-connexes dans les graphes de dictionnaires

Awada Ali, Chebaro Bilal

Université Libanaise – Faculté des sciences – Section 1 –Département des mathématiques appliquées

HADATH – LIBAN

[email protected]

Résumé

La synonymie est l'un des aspects fondamentaux de l’informatique linguistique. Elle se ramène en

général à étudier les dictionnaires de langues. Cependant, son étude se heurte très souvent au

problème de la polysémie qui a pour effet de rapprocher les synonymes de différentes acceptions

d’un même verbe. Cet article tente de résoudre ce problème en définissant la N-connexité comme

nouveau critère de regroupement des verbes synonymes ainsi que la synonymétrie comme notion de

mesure de la proximité de sens et propose un algorithme de mesure de cette proximité.

1 Introduction

L'étude de la synonymie est l'un des problèmes les plus importants de l’informatique linguistique, à juger

par ses nombreux champs d'application. Ce problème a largement été abordé par la communauté

scientifique qui a proposé différentes approches s'appuyant très souvent sur l’étude des dictionnaires

[Lyons 90]. Ces approches consistent généralement à représenter le dictionnaire par un graphe dont les

sommets sont les entrées du dictionnaire et les arcs traduisent une synonymie directe entre deux sommets

(il existe un arc d'un sommet A vers un sommet B si et seulement si l'entrée B apparaît dans la définition

de l'entrée A en tant que synonyme). Par conséquent, le problème de la synonymie dans un dictionnaire

se ramène à une étude sur les graphes cherchant à exploiter les réseaux ainsi établis entre les mots. Il

s'agit, très souvent, de détecter des composantes possédant des propriétés spécifiques en termes de graphe

telles que les cliques [Ploux, Victorri 1998] et les gangs [Venant 2003] conduisant ainsi au regroupement

de verbes synonymes. Cependant, quel que soit le type de composante mise en évidence, les auteurs de

ces différentes études confondent composante et "sens élémentaire". Notons tout de même que toutes les

méthodes s'appuyant sur les réseaux sémantiques se heurtent au problème de la polysémie.

Nous nous intéressons dans cet article à l'étude de la synonymie à travers l'examen d'un graphe de

dictionnaire de verbes en essayant de traiter précisément ce problème de la polysémie et d'y apporter

quelques éléments concrets de solution. Nous y définissons, dans un premier temps, un nouveau critère

de regroupement qui est la N-connexité ainsi que la notion de synonymétrie permettant de mesurer la

proximité de sens et d’éliminer les utilisations de synonymes métaphoriques, la métaphorymie étant une

notion proposée par Duvignau et al. [2000]. La N-connexité et la synonymétrie sont ensuite mises à

contribution afin d'éliminer certaines ambiguïtés résultant de la présence de verbes polysémiques dans le

graphe de dictionnaire.

2 Synonymie et verbes polysémiques

Bien que l'exploitation de réseaux sémantiques soit intéressante, elle souffre de faiblesses qualitatives

liées à l'ambiguïté induite par le concept de la polysémie. En effet, les entrées (et donc sommets)

polysémiques peuvent conduire à des associations contre-nature entre verbes de sens différents. Afin de

remédier au problème de l'ambiguïté de sens, Victorri et Fuchs [1996] proposent un modèle de

construction dynamique du sens. Dans ce modèle, on associe à chaque unité polysémique un espace

sémantique, et le sens de l'unité dans un énoncé donné résulte d'une interaction dynamique avec les autres

unités linguistiques présentes dans l'énoncé (le cotexte) [François, Manguin, Victorri 2003].

En plus du problème précédent, vient s'ajouter un problème d'ordre quantitatif lié au « degré de

synonymie » entre les mots (ressemblance entre les synonymes). En effet, on se contente souvent de

constater l'existence d'une relation entre deux entrées-sommets sans pour autant quantifier la force de

cette relation en mesurant le degré de ressemblance entre ces entrées.

L'étude que nous proposons dans ce document tente, dans le cas d'un dictionnaire de verbes, d'apporter

des réponses concrètes aux deux problèmes précédents. Afin d'y parvenir, nous introduisons deux

notions :

• la première, appelée synonymétrie, est purement linguistique. Elle mesure le degré de proximité

de sens entre deux verbes d'une langue et permet de détecter et d’éliminer, dans notre cas, des

utilisations métaphoriques de certains verbes;

• la deuxième, définie sur le graphe de dictionnaire et appelée N-connexité, est purement

mathématique.

Nous avons défini ces deux notions afin de pouvoir traiter les anomalies qui découlent des faiblesses

précédemment évoquées et qui sont la conséquence directe de la richesse des langues naturelles. Cette

richesse se traduit par la complexité du graphe de dictionnaire associé à une langue. Cette complexité

s'illustre à son tour par une inter-connectivité accrue entre les sommets du graphe.

3 La Synonymétrie

3.1 Synonymétrie et plus court chemin

Nous pensons que la mesure de la proximité de sens entre deux verbes donnés (la synonymétrie) doit être

déterminée en examinant uniquement le plus court chemin entre les deux sommets correspondants dans le

graphe. En effet, s’il existe plusieurs chemins entre deux verbes, nous en choisirons le plus court car nous

cherchons les définissants ayant un sens aussi proche que possible. Ainsi, la proximité de sens entre deux

verbes est inversement proportionnelle à la longueur du plus court chemin les reliant.

Casser Briser

Couper Abattre

Fig. 1 : Plus court chemin

Le schéma précédent (Fig.1) montre, en partie, les relations existant entre le verbe abattre et quelques uns

de ses synonymes. La synonymétrie entre abattre et casser est plus faible que celle existant entre abattre

et couper d'un côté, et entre abattre et briser d'un autre côté. Ceci résulte de la prise en compte du plus

court chemin entre abattre et ses synonymes.

3.2 Synonymétrie et verbes polysémiques

Bien que le plus court chemin entre deux sommets s’impose en tant que mesure de la synonymétrie, la

longueur de ce chemin n’est pas toujours suffisante dans la recherche des synonymes d'un verbe. Dans

certains cas, l'existence d'un chemin, même très court, entre deux sommets-verbes ne traduit pas

forcément le fait qu’ils aient le même sens. En effet, la présence d’un verbe polysémique sur ce chemin

suffit pour corrompre la relation de synonymie détectée entre les deux verbes. Ainsi, un verbe ayant

plusieurs sens va jouer le rôle de chaînon entre les verbes représentant ses différentes acceptions.

L'exemple suivant illustre bien ce problème :

Regarder Observer Garder

Fig. 2 : Chemin de longueur 2 entre deux verbes non synonymes

L’exemple de la figure 2 traduit le fait qu’observer est un synonyme de regarder et que garder figure

dans la liste des synonymes d’observer car une acception d’observer est observer le silence qui veut dire

garder le silence. Le chemin de longueur 2 entre regarder et garder pourrait signifier que ces deux

verbes ont le même sens ou presque. Or, ceci est faux puisque ces deux verbes ont deux sens

complètement différents correspondant chacun à une acception du verbe observer.

La synonymie entre différentes entrées d'un dictionnaire se traduit dans le graphe correspondant par des

concentrations de relations (arcs) entre tous les verbes (sommets) ayant le même sens. Il en résulte que

les verbes synonymes sont regroupés dans la même composante connexe. Théoriquement, deux familles

de verbes synonymes ayant chacune un sens propre différent de l’autre famille devraient apparaître dans

le graphe sous forme de deux composantes connexes différentes et par conséquent disjointes. Nous en

concluons qu’il devrait y avoir équivalence entre la notion de sens et celle de composante connexe dans

le graphe. Cette hypothèse aurait été vraie en l’absence de verbes polysémiques du dictionnaire. La

présence d'un verbe polysémique se traduit, dans le graphe, par l'appartenance de son sommet à toutes les

composantes connexes correspondant à ses différentes acceptions. Un tel sommet joue ainsi le rôle de

« passerelle » entre différentes composantes connexes en les unissant à l’intérieur d’une même

composante connexe. Un chemin partant d’un verbe appartenant à une composante (avant l’union) tel que

regarder vers un verbe appartenant à une autre composante comme garder doit forcément passer par un

verbe polysémique tel qu’observer. L’existence d’un tel chemin pourrait être interprétée comme « garder

est un synonyme de regarder ». Cette affirmation étant erronée, nous nous devons de trouver un moyen

pour séparer ces deux composantes sur le graphe ou du moins les considérer comme disjointes. Afin

d'atteindre cet objectif, nous avons introduit la notion de N-connexité.

4 La N-connexité

Un sous graphe forme une composante N-connexe si et seulement si chaque sommet de ce sous graphe

est en liaison directe (un arc) avec au moins N sommets du même sous graphe. Par ailleurs, tout sommet

du graphe vérifiant cette propriété appartient à la composante N-connexe.

Fig. 3 : Irrégularités dues à la présence de verbes polysémiques

Composante 3-connexe correspondant à

l’acception d’observer signifiant regarder

Garde

Regarder Examine

Reteni

Conserve

Observe

Dévisager

Lorgner

Verbes hors composante 3-connexe correspondant

à l’acception d’observer signifiant garder

En examinant l’exemple de la figure 2, et en se restreignant uniquement aux verbes ayant un lien direct

avec observer, nous obtenons le graphe de la figure 3.

5 Recherche des synonymes d’ordre p

5.1 La synonymie d’ordre p

Comme nous l’avons précisé auparavant, la polysémie crée des liens contre-nature entre certains verbes

du dictionnaire. Ceci se traduit sur le « graphe-dictionnaire » par la présence de faibles connexions entre

différentes familles (composantes) de verbes (sommets). Nous pensons que la résolution de ce problème

passe par l’élimination de ces connexions douteuses. Aussi, la caractérisation de la synonymie entre deux

verbes est-elle reformulée de la manière suivante : deux verbes sont synonymes s'ils appartiennent à la

même composante N-connexe du graphe de dictionnaire.

Par ailleurs, la synonymétrie qui mesure la force de la synonymie entre deux verbes est inversement

proportionnelle à la distance entre ces deux verbes à l’intérieur de la composante N-connexe. Ainsi, nous

utilisons la notion de synonyme d’ordre p d’un verbe pour désigner la synonymétrie entre un verbe et ses

synonymes.

5.2 Algorithme

L’algorithme de recherche des synonymes d’ordre p d’un verbe donné est une implémentation de la

formule suivante :

{Synonymes d’ordre p} = {Synonymes directs des synonymes d’ordre p-1} \ {Synonymes hors

composante N-connexe} \ {Synonymes d’ordre i tel que i < p}.

liste_synonymes Calculer_synonymes(verbe V,int p)

{

int j = 0; liste_synonymes Sj = {V}, Sj+1 =

, Stotal = {V};

tant que (j < p)

{

pour chaque élément Vk de Sj

{

k = synonymes directs de Vk;

calculer N en fonction de Vk;

détecter la composante N-connexe de Vk;

k=SDk \ verbes hors composante;

Sj+1 = Sj+1

∪

SDk;

}

j++;

j=Sj+1 \ Stotal ;

Stotal = Stotal

∪

Sj ;

}

retourner Sj ;

}

6 Conclusion

Dans cet article, nous avons étudié la synonymie entre verbes du dictionnaire en tentant d’enrayer le

problème de la polysémie qui affecte négativement cette synonymie à travers les liens obtenus

transitivement entre verbes. Pour ce faire, nous avons proposé une reformulation de la synonymie en

utilisant la notion de N-connexité définie dans ce même article. Ceci nous a mené à décomposer le graphe

en composantes N-connexes, chacune des composantes ainsi définies correspondant à un sens

élémentaire.

Nous avons ensuite utilisé la synonymétrie pour mesurer, à l’intérieur d’une composante N-connexe d’un

verbe donné (groupe de synonymes), le degré de ressemblance de chacun des verbes de la composante

avec le verbe de départ. Ce calcul a permis de définir l’ordre de synonymie (synonymie d’ordre p : plus

ou moins proche).

Cette reformulation de la synonymie a été à la base d’un outil informatique graphique d'interrogation de

dictionnaire que nous avons développé et mis au point dans le but est de faciliter la consultation de ce

dernier. Les résultats que nous avons obtenus sont encourageants. Toutefois, il faut noter que ces résultats

dépendent grandement de la valeur de N. En effet, une valeur élevée de N (contraignante) permettrait

d’obtenir de vrais synonymes et donc de trouver une solution au problème de la métaphorymie, mais elle

pourrait aussi entraîner la perte de certains autres vrais synonymes. Par contre, une valeur faible de N

(souple) ferait entrer dans la composante N-connexe des verbes métaphoriques confondant ainsi, dans la

même composante plusieurs sens élémentaires.

Par ailleurs, nous avons remarqué que la valeur de N doit dépendre du verbe examiné (de départ) et, par

conséquent, ne peut être fixe. Ceci peut être expliqué par la richesse du dictionnaire et par l’hétérogénéité

de son contenu se traduisant par un graphe dans lequel les éléments de certaines composantes N-connexes

entretiennent beaucoup de relations les uns avec les autres alors que d’autres composantes sont formées

de nœuds faiblement liés.

Toutes ces raisons prouvent bien que le choix de N est crucial et qu’une attention particulière doit lui être

prêtée. Il semble primordial de remplacer le choix empirique de N adopté jusqu’alors par une méthode

plus robuste. Plusieurs stratégies pourraient être explorées (statistiques, linguistiques, …).

Références

Duvignau K., Fabre C., Ferraty F., Gasquet O., Gaume B., Jouve B., Lang J., Pery-Woodley M.P. (2000). Les

dictionnaires de langue : des graphes aux propriétés topologico-sémantiques ? Etats Généraux du Programme de

REcherches en Sciences COgnitives de Toulouse (PRESCOT), Toulouse.

François J., Manguin J.L., Victorri B. (2003). La réduction de la polysémie adjectivale en cotexte nominal : une

méthode de sémantique calculatoire. Cahier du Crisco no 14, septembre 2003, Université de Caen.

Gosselin L. (1996). Le traitement de la polysémie contextuelle dans le calcul sémantique. Intellectica 1996/1, 22, 93-

117.

Le Blanc B., Dion D., Auber D., Mélançon G. (2001). Constitution et visualisation de deux réseaux d'associations

verbales. 2nd Colloque sur Agents Logiciels, Coopération, Apprentissage et Activité humaine (ALCAA), 37-43.

Le Loupy C B. (2002). Evaluation des taux de synonymie et de polysémie dans un texte. Conférence TALN 2002,

Nancy.

Lyons J., (1990). Sémantique linguistique. Paris: Larousse

Manguin J.L., Victorri B. (1999). Représentation géométrique d’un paradigme lexical. Conférence TALN 1999,

Cargèse.

Ploux S., Victorri B. (1998), Construction d‘espaces sémantiques à l‘aide de dictionnaires de synonymes, TAL , 39,

n°1, pp 161-182.

Venant F., (2003). Géométriser le sens. Les Journées Graphes, Réseaux et Modélisation, ESPCI, Paris.

Victorri B., Fuchs C. (1996). La polysémie, construction dynamique du sens. Paris: Hermès.

1 / 5 100%

Documents connexes

Mon livret d’outils pour écrire

passé composé check-in

Exercices de vocabulaire : Verbes et noms

Capsule octobre 2010_Il me fait plaisir_version courte

Les 3 groupes de verbe.

Séance 6

V6 – Les synonymes - Ecole MALRAUX

Le PRÉSENT des verbes ÊTRE et AVOIR(01)

Verbe d`action, verbe d`état

Le passé avec les verbes en "IR"

Les verbes de dialogue

le 4 temps de verbes

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Etude de la synonymie par l`extraction de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Etude de la synonymie par l`extraction de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib