Etude de la synonymie par l`extraction de

publicité
Etude de la synonymie par l’extraction de composantes
N-connexes dans les graphes de dictionnaires
Awada Ali, Chebaro Bilal
Université Libanaise – Faculté des sciences – Section 1 –Département des mathématiques appliquées
HADATH – LIBAN
[email protected]
[email protected]
Résumé
La synonymie est l'un des aspects fondamentaux de l’informatique linguistique. Elle se ramène en
général à étudier les dictionnaires de langues. Cependant, son étude se heurte très souvent au
problème de la polysémie qui a pour effet de rapprocher les synonymes de différentes acceptions
d’un même verbe. Cet article tente de résoudre ce problème en définissant la N-connexité comme
nouveau critère de regroupement des verbes synonymes ainsi que la synonymétrie comme notion de
mesure de la proximité de sens et propose un algorithme de mesure de cette proximité.
1
Introduction
L'étude de la synonymie est l'un des problèmes les plus importants de l’informatique linguistique, à juger
par ses nombreux champs d'application. Ce problème a largement été abordé par la communauté
scientifique qui a proposé différentes approches s'appuyant très souvent sur l’étude des dictionnaires
[Lyons 90]. Ces approches consistent généralement à représenter le dictionnaire par un graphe dont les
sommets sont les entrées du dictionnaire et les arcs traduisent une synonymie directe entre deux sommets
(il existe un arc d'un sommet A vers un sommet B si et seulement si l'entrée B apparaît dans la définition
de l'entrée A en tant que synonyme). Par conséquent, le problème de la synonymie dans un dictionnaire
se ramène à une étude sur les graphes cherchant à exploiter les réseaux ainsi établis entre les mots. Il
s'agit, très souvent, de détecter des composantes possédant des propriétés spécifiques en termes de graphe
telles que les cliques [Ploux, Victorri 1998] et les gangs [Venant 2003] conduisant ainsi au regroupement
de verbes synonymes. Cependant, quel que soit le type de composante mise en évidence, les auteurs de
ces différentes études confondent composante et "sens élémentaire". Notons tout de même que toutes les
méthodes s'appuyant sur les réseaux sémantiques se heurtent au problème de la polysémie.
Nous nous intéressons dans cet article à l'étude de la synonymie à travers l'examen d'un graphe de
dictionnaire de verbes en essayant de traiter précisément ce problème de la polysémie et d'y apporter
quelques éléments concrets de solution. Nous y définissons, dans un premier temps, un nouveau critère
de regroupement qui est la N-connexité ainsi que la notion de synonymétrie permettant de mesurer la
proximité de sens et d’éliminer les utilisations de synonymes métaphoriques, la métaphorymie étant une
notion proposée par Duvignau et al. [2000]. La N-connexité et la synonymétrie sont ensuite mises à
contribution afin d'éliminer certaines ambiguïtés résultant de la présence de verbes polysémiques dans le
graphe de dictionnaire.
2
Synonymie et verbes polysémiques
Bien que l'exploitation de réseaux sémantiques soit intéressante, elle souffre de faiblesses qualitatives
liées à l'ambiguïté induite par le concept de la polysémie. En effet, les entrées (et donc sommets)
polysémiques peuvent conduire à des associations contre-nature entre verbes de sens différents. Afin de
remédier au problème de l'ambiguïté de sens, Victorri et Fuchs [1996] proposent un modèle de
construction dynamique du sens. Dans ce modèle, on associe à chaque unité polysémique un espace
sémantique, et le sens de l'unité dans un énoncé donné résulte d'une interaction dynamique avec les autres
unités linguistiques présentes dans l'énoncé (le cotexte) [François, Manguin, Victorri 2003].
En plus du problème précédent, vient s'ajouter un problème d'ordre quantitatif lié au « degré de
synonymie » entre les mots (ressemblance entre les synonymes). En effet, on se contente souvent de
constater l'existence d'une relation entre deux entrées-sommets sans pour autant quantifier la force de
cette relation en mesurant le degré de ressemblance entre ces entrées.
L'étude que nous proposons dans ce document tente, dans le cas d'un dictionnaire de verbes, d'apporter
des réponses concrètes aux deux problèmes précédents. Afin d'y parvenir, nous introduisons deux
notions :
• la première, appelée synonymétrie, est purement linguistique. Elle mesure le degré de proximité
de sens entre deux verbes d'une langue et permet de détecter et d’éliminer, dans notre cas, des
utilisations métaphoriques de certains verbes;
• la deuxième, définie sur le graphe de dictionnaire et appelée N-connexité, est purement
mathématique.
Nous avons défini ces deux notions afin de pouvoir traiter les anomalies qui découlent des faiblesses
précédemment évoquées et qui sont la conséquence directe de la richesse des langues naturelles. Cette
richesse se traduit par la complexité du graphe de dictionnaire associé à une langue. Cette complexité
s'illustre à son tour par une inter-connectivité accrue entre les sommets du graphe.
3
3.1
La Synonymétrie
Synonymétrie et plus court chemin
Nous pensons que la mesure de la proximité de sens entre deux verbes donnés (la synonymétrie) doit être
déterminée en examinant uniquement le plus court chemin entre les deux sommets correspondants dans le
graphe. En effet, s’il existe plusieurs chemins entre deux verbes, nous en choisirons le plus court car nous
cherchons les définissants ayant un sens aussi proche que possible. Ainsi, la proximité de sens entre deux
verbes est inversement proportionnelle à la longueur du plus court chemin les reliant.
Abattre
Couper
Briser
Casser
Fig. 1 : Plus court chemin
Le schéma précédent (Fig.1) montre, en partie, les relations existant entre le verbe abattre et quelques uns
de ses synonymes. La synonymétrie entre abattre et casser est plus faible que celle existant entre abattre
et couper d'un côté, et entre abattre et briser d'un autre côté. Ceci résulte de la prise en compte du plus
court chemin entre abattre et ses synonymes.
3.2
Synonymétrie et verbes polysémiques
Bien que le plus court chemin entre deux sommets s’impose en tant que mesure de la synonymétrie, la
longueur de ce chemin n’est pas toujours suffisante dans la recherche des synonymes d'un verbe. Dans
certains cas, l'existence d'un chemin, même très court, entre deux sommets-verbes ne traduit pas
forcément le fait qu’ils aient le même sens. En effet, la présence d’un verbe polysémique sur ce chemin
suffit pour corrompre la relation de synonymie détectée entre les deux verbes. Ainsi, un verbe ayant
plusieurs sens va jouer le rôle de chaînon entre les verbes représentant ses différentes acceptions.
L'exemple suivant illustre bien ce problème :
Regarder
Observer
Garder
Fig. 2 : Chemin de longueur 2 entre deux verbes non synonymes
L’exemple de la figure 2 traduit le fait qu’observer est un synonyme de regarder et que garder figure
dans la liste des synonymes d’observer car une acception d’observer est observer le silence qui veut dire
garder le silence. Le chemin de longueur 2 entre regarder et garder pourrait signifier que ces deux
verbes ont le même sens ou presque. Or, ceci est faux puisque ces deux verbes ont deux sens
complètement différents correspondant chacun à une acception du verbe observer.
La synonymie entre différentes entrées d'un dictionnaire se traduit dans le graphe correspondant par des
concentrations de relations (arcs) entre tous les verbes (sommets) ayant le même sens. Il en résulte que
les verbes synonymes sont regroupés dans la même composante connexe. Théoriquement, deux familles
de verbes synonymes ayant chacune un sens propre différent de l’autre famille devraient apparaître dans
le graphe sous forme de deux composantes connexes différentes et par conséquent disjointes. Nous en
concluons qu’il devrait y avoir équivalence entre la notion de sens et celle de composante connexe dans
le graphe. Cette hypothèse aurait été vraie en l’absence de verbes polysémiques du dictionnaire. La
présence d'un verbe polysémique se traduit, dans le graphe, par l'appartenance de son sommet à toutes les
composantes connexes correspondant à ses différentes acceptions. Un tel sommet joue ainsi le rôle de
« passerelle » entre différentes composantes connexes en les unissant à l’intérieur d’une même
composante connexe. Un chemin partant d’un verbe appartenant à une composante (avant l’union) tel que
regarder vers un verbe appartenant à une autre composante comme garder doit forcément passer par un
verbe polysémique tel qu’observer. L’existence d’un tel chemin pourrait être interprétée comme « garder
est un synonyme de regarder ». Cette affirmation étant erronée, nous nous devons de trouver un moyen
pour séparer ces deux composantes sur le graphe ou du moins les considérer comme disjointes. Afin
d'atteindre cet objectif, nous avons introduit la notion de N-connexité.
4
La N-connexité
Un sous graphe forme une composante N-connexe si et seulement si chaque sommet de ce sous graphe
est en liaison directe (un arc) avec au moins N sommets du même sous graphe. Par ailleurs, tout sommet
du graphe vérifiant cette propriété appartient à la composante N-connexe.
Regarder
Conserver
Examiner
Garder
Observer
Lorgner
Dévisager
Composante 3-connexe correspondant à
l’acception d’observer signifiant regarder
Retenir
Verbes hors composante 3-connexe correspondant
à l’acception d’observer signifiant garder
Fig. 3 : Irrégularités dues à la présence de verbes polysémiques
En examinant l’exemple de la figure 2, et en se restreignant uniquement aux verbes ayant un lien direct
avec observer, nous obtenons le graphe de la figure 3.
5
5.1
Recherche des synonymes d’ordre p
La synonymie d’ordre p
Comme nous l’avons précisé auparavant, la polysémie crée des liens contre-nature entre certains verbes
du dictionnaire. Ceci se traduit sur le « graphe-dictionnaire » par la présence de faibles connexions entre
différentes familles (composantes) de verbes (sommets). Nous pensons que la résolution de ce problème
passe par l’élimination de ces connexions douteuses. Aussi, la caractérisation de la synonymie entre deux
verbes est-elle reformulée de la manière suivante : deux verbes sont synonymes s'ils appartiennent à la
même composante N-connexe du graphe de dictionnaire.
Par ailleurs, la synonymétrie qui mesure la force de la synonymie entre deux verbes est inversement
proportionnelle à la distance entre ces deux verbes à l’intérieur de la composante N-connexe. Ainsi, nous
utilisons la notion de synonyme d’ordre p d’un verbe pour désigner la synonymétrie entre un verbe et ses
synonymes.
5.2
Algorithme
L’algorithme de recherche des synonymes d’ordre p d’un verbe donné est une implémentation de la
formule suivante :
{Synonymes d’ordre p} = {Synonymes directs des synonymes d’ordre p-1} \ {Synonymes hors
composante N-connexe} \ {Synonymes d’ordre i tel que i < p}.
liste_synonymes Calculer_synonymes(verbe V,int p)
{
int j = 0; liste_synonymes Sj = {V}, Sj+1 = φ, Stotal = {V};
tant que (j < p)
{
pour chaque élément Vk de Sj
{
SDk = synonymes directs de Vk;
calculer N en fonction de Vk;
détecter la composante N-connexe de Vk;
SDk=SDk \ verbes hors composante;
Sj+1 = Sj+1 ∪ SDk;
}
j++;
Sj=Sj+1 \ Stotal ;
Stotal = Stotal ∪ Sj ;
}
retourner Sj ;
}
6
Conclusion
Dans cet article, nous avons étudié la synonymie entre verbes du dictionnaire en tentant d’enrayer le
problème de la polysémie qui affecte négativement cette synonymie à travers les liens obtenus
transitivement entre verbes. Pour ce faire, nous avons proposé une reformulation de la synonymie en
utilisant la notion de N-connexité définie dans ce même article. Ceci nous a mené à décomposer le graphe
en composantes N-connexes, chacune des composantes ainsi définies correspondant à un sens
élémentaire.
Nous avons ensuite utilisé la synonymétrie pour mesurer, à l’intérieur d’une composante N-connexe d’un
verbe donné (groupe de synonymes), le degré de ressemblance de chacun des verbes de la composante
avec le verbe de départ. Ce calcul a permis de définir l’ordre de synonymie (synonymie d’ordre p : plus
ou moins proche).
Cette reformulation de la synonymie a été à la base d’un outil informatique graphique d'interrogation de
dictionnaire que nous avons développé et mis au point dans le but est de faciliter la consultation de ce
dernier. Les résultats que nous avons obtenus sont encourageants. Toutefois, il faut noter que ces résultats
dépendent grandement de la valeur de N. En effet, une valeur élevée de N (contraignante) permettrait
d’obtenir de vrais synonymes et donc de trouver une solution au problème de la métaphorymie, mais elle
pourrait aussi entraîner la perte de certains autres vrais synonymes. Par contre, une valeur faible de N
(souple) ferait entrer dans la composante N-connexe des verbes métaphoriques confondant ainsi, dans la
même composante plusieurs sens élémentaires.
Par ailleurs, nous avons remarqué que la valeur de N doit dépendre du verbe examiné (de départ) et, par
conséquent, ne peut être fixe. Ceci peut être expliqué par la richesse du dictionnaire et par l’hétérogénéité
de son contenu se traduisant par un graphe dans lequel les éléments de certaines composantes N-connexes
entretiennent beaucoup de relations les uns avec les autres alors que d’autres composantes sont formées
de nœuds faiblement liés.
Toutes ces raisons prouvent bien que le choix de N est crucial et qu’une attention particulière doit lui être
prêtée. Il semble primordial de remplacer le choix empirique de N adopté jusqu’alors par une méthode
plus robuste. Plusieurs stratégies pourraient être explorées (statistiques, linguistiques, …).
Références
Duvignau K., Fabre C., Ferraty F., Gasquet O., Gaume B., Jouve B., Lang J., Pery-Woodley M.P. (2000). Les
dictionnaires de langue : des graphes aux propriétés topologico-sémantiques ? Etats Généraux du Programme de
REcherches en Sciences COgnitives de Toulouse (PRESCOT), Toulouse.
François J., Manguin J.L., Victorri B. (2003). La réduction de la polysémie adjectivale en cotexte nominal : une
méthode de sémantique calculatoire. Cahier du Crisco no 14, septembre 2003, Université de Caen.
Gosselin L. (1996). Le traitement de la polysémie contextuelle dans le calcul sémantique. Intellectica 1996/1, 22, 93117.
Le Blanc B., Dion D., Auber D., Mélançon G. (2001). Constitution et visualisation de deux réseaux d'associations
verbales. 2nd Colloque sur Agents Logiciels, Coopération, Apprentissage et Activité humaine (ALCAA), 37-43.
Le Loupy C B. (2002). Evaluation des taux de synonymie et de polysémie dans un texte. Conférence TALN 2002,
Nancy.
Lyons J., (1990). Sémantique linguistique. Paris: Larousse
Manguin J.L., Victorri B. (1999). Représentation géométrique d’un paradigme lexical. Conférence TALN 1999,
Cargèse.
Ploux S., Victorri B. (1998), Construction d‘espaces sémantiques à l‘aide de dictionnaires de synonymes, TAL , 39,
n°1, pp 161-182.
Venant F., (2003). Géométriser le sens. Les Journées Graphes, Réseaux et Modélisation, ESPCI, Paris.
Victorri B., Fuchs C. (1996). La polysémie, construction dynamique du sens. Paris: Hermès.
Téléchargement