Etude de la synonymie par l’extraction de composantes N-connexes dans les graphes de dictionnaires Awada Ali, Chebaro Bilal Université Libanaise – Faculté des sciences – Section 1 –Département des mathématiques appliquées HADATH – LIBAN [email protected] [email protected] Résumé La synonymie est l'un des aspects fondamentaux de l’informatique linguistique. Elle se ramène en général à étudier les dictionnaires de langues. Cependant, son étude se heurte très souvent au problème de la polysémie qui a pour effet de rapprocher les synonymes de différentes acceptions d’un même verbe. Cet article tente de résoudre ce problème en définissant la N-connexité comme nouveau critère de regroupement des verbes synonymes ainsi que la synonymétrie comme notion de mesure de la proximité de sens et propose un algorithme de mesure de cette proximité. 1 Introduction L'étude de la synonymie est l'un des problèmes les plus importants de l’informatique linguistique, à juger par ses nombreux champs d'application. Ce problème a largement été abordé par la communauté scientifique qui a proposé différentes approches s'appuyant très souvent sur l’étude des dictionnaires [Lyons 90]. Ces approches consistent généralement à représenter le dictionnaire par un graphe dont les sommets sont les entrées du dictionnaire et les arcs traduisent une synonymie directe entre deux sommets (il existe un arc d'un sommet A vers un sommet B si et seulement si l'entrée B apparaît dans la définition de l'entrée A en tant que synonyme). Par conséquent, le problème de la synonymie dans un dictionnaire se ramène à une étude sur les graphes cherchant à exploiter les réseaux ainsi établis entre les mots. Il s'agit, très souvent, de détecter des composantes possédant des propriétés spécifiques en termes de graphe telles que les cliques [Ploux, Victorri 1998] et les gangs [Venant 2003] conduisant ainsi au regroupement de verbes synonymes. Cependant, quel que soit le type de composante mise en évidence, les auteurs de ces différentes études confondent composante et "sens élémentaire". Notons tout de même que toutes les méthodes s'appuyant sur les réseaux sémantiques se heurtent au problème de la polysémie. Nous nous intéressons dans cet article à l'étude de la synonymie à travers l'examen d'un graphe de dictionnaire de verbes en essayant de traiter précisément ce problème de la polysémie et d'y apporter quelques éléments concrets de solution. Nous y définissons, dans un premier temps, un nouveau critère de regroupement qui est la N-connexité ainsi que la notion de synonymétrie permettant de mesurer la proximité de sens et d’éliminer les utilisations de synonymes métaphoriques, la métaphorymie étant une notion proposée par Duvignau et al. [2000]. La N-connexité et la synonymétrie sont ensuite mises à contribution afin d'éliminer certaines ambiguïtés résultant de la présence de verbes polysémiques dans le graphe de dictionnaire. 2 Synonymie et verbes polysémiques Bien que l'exploitation de réseaux sémantiques soit intéressante, elle souffre de faiblesses qualitatives liées à l'ambiguïté induite par le concept de la polysémie. En effet, les entrées (et donc sommets) polysémiques peuvent conduire à des associations contre-nature entre verbes de sens différents. Afin de remédier au problème de l'ambiguïté de sens, Victorri et Fuchs [1996] proposent un modèle de construction dynamique du sens. Dans ce modèle, on associe à chaque unité polysémique un espace sémantique, et le sens de l'unité dans un énoncé donné résulte d'une interaction dynamique avec les autres unités linguistiques présentes dans l'énoncé (le cotexte) [François, Manguin, Victorri 2003]. En plus du problème précédent, vient s'ajouter un problème d'ordre quantitatif lié au « degré de synonymie » entre les mots (ressemblance entre les synonymes). En effet, on se contente souvent de constater l'existence d'une relation entre deux entrées-sommets sans pour autant quantifier la force de cette relation en mesurant le degré de ressemblance entre ces entrées. L'étude que nous proposons dans ce document tente, dans le cas d'un dictionnaire de verbes, d'apporter des réponses concrètes aux deux problèmes précédents. Afin d'y parvenir, nous introduisons deux notions : • la première, appelée synonymétrie, est purement linguistique. Elle mesure le degré de proximité de sens entre deux verbes d'une langue et permet de détecter et d’éliminer, dans notre cas, des utilisations métaphoriques de certains verbes; • la deuxième, définie sur le graphe de dictionnaire et appelée N-connexité, est purement mathématique. Nous avons défini ces deux notions afin de pouvoir traiter les anomalies qui découlent des faiblesses précédemment évoquées et qui sont la conséquence directe de la richesse des langues naturelles. Cette richesse se traduit par la complexité du graphe de dictionnaire associé à une langue. Cette complexité s'illustre à son tour par une inter-connectivité accrue entre les sommets du graphe. 3 3.1 La Synonymétrie Synonymétrie et plus court chemin Nous pensons que la mesure de la proximité de sens entre deux verbes donnés (la synonymétrie) doit être déterminée en examinant uniquement le plus court chemin entre les deux sommets correspondants dans le graphe. En effet, s’il existe plusieurs chemins entre deux verbes, nous en choisirons le plus court car nous cherchons les définissants ayant un sens aussi proche que possible. Ainsi, la proximité de sens entre deux verbes est inversement proportionnelle à la longueur du plus court chemin les reliant. Abattre Couper Briser Casser Fig. 1 : Plus court chemin Le schéma précédent (Fig.1) montre, en partie, les relations existant entre le verbe abattre et quelques uns de ses synonymes. La synonymétrie entre abattre et casser est plus faible que celle existant entre abattre et couper d'un côté, et entre abattre et briser d'un autre côté. Ceci résulte de la prise en compte du plus court chemin entre abattre et ses synonymes. 3.2 Synonymétrie et verbes polysémiques Bien que le plus court chemin entre deux sommets s’impose en tant que mesure de la synonymétrie, la longueur de ce chemin n’est pas toujours suffisante dans la recherche des synonymes d'un verbe. Dans certains cas, l'existence d'un chemin, même très court, entre deux sommets-verbes ne traduit pas forcément le fait qu’ils aient le même sens. En effet, la présence d’un verbe polysémique sur ce chemin suffit pour corrompre la relation de synonymie détectée entre les deux verbes. Ainsi, un verbe ayant plusieurs sens va jouer le rôle de chaînon entre les verbes représentant ses différentes acceptions. L'exemple suivant illustre bien ce problème : Regarder Observer Garder Fig. 2 : Chemin de longueur 2 entre deux verbes non synonymes L’exemple de la figure 2 traduit le fait qu’observer est un synonyme de regarder et que garder figure dans la liste des synonymes d’observer car une acception d’observer est observer le silence qui veut dire garder le silence. Le chemin de longueur 2 entre regarder et garder pourrait signifier que ces deux verbes ont le même sens ou presque. Or, ceci est faux puisque ces deux verbes ont deux sens complètement différents correspondant chacun à une acception du verbe observer. La synonymie entre différentes entrées d'un dictionnaire se traduit dans le graphe correspondant par des concentrations de relations (arcs) entre tous les verbes (sommets) ayant le même sens. Il en résulte que les verbes synonymes sont regroupés dans la même composante connexe. Théoriquement, deux familles de verbes synonymes ayant chacune un sens propre différent de l’autre famille devraient apparaître dans le graphe sous forme de deux composantes connexes différentes et par conséquent disjointes. Nous en concluons qu’il devrait y avoir équivalence entre la notion de sens et celle de composante connexe dans le graphe. Cette hypothèse aurait été vraie en l’absence de verbes polysémiques du dictionnaire. La présence d'un verbe polysémique se traduit, dans le graphe, par l'appartenance de son sommet à toutes les composantes connexes correspondant à ses différentes acceptions. Un tel sommet joue ainsi le rôle de « passerelle » entre différentes composantes connexes en les unissant à l’intérieur d’une même composante connexe. Un chemin partant d’un verbe appartenant à une composante (avant l’union) tel que regarder vers un verbe appartenant à une autre composante comme garder doit forcément passer par un verbe polysémique tel qu’observer. L’existence d’un tel chemin pourrait être interprétée comme « garder est un synonyme de regarder ». Cette affirmation étant erronée, nous nous devons de trouver un moyen pour séparer ces deux composantes sur le graphe ou du moins les considérer comme disjointes. Afin d'atteindre cet objectif, nous avons introduit la notion de N-connexité. 4 La N-connexité Un sous graphe forme une composante N-connexe si et seulement si chaque sommet de ce sous graphe est en liaison directe (un arc) avec au moins N sommets du même sous graphe. Par ailleurs, tout sommet du graphe vérifiant cette propriété appartient à la composante N-connexe. Regarder Conserver Examiner Garder Observer Lorgner Dévisager Composante 3-connexe correspondant à l’acception d’observer signifiant regarder Retenir Verbes hors composante 3-connexe correspondant à l’acception d’observer signifiant garder Fig. 3 : Irrégularités dues à la présence de verbes polysémiques En examinant l’exemple de la figure 2, et en se restreignant uniquement aux verbes ayant un lien direct avec observer, nous obtenons le graphe de la figure 3. 5 5.1 Recherche des synonymes d’ordre p La synonymie d’ordre p Comme nous l’avons précisé auparavant, la polysémie crée des liens contre-nature entre certains verbes du dictionnaire. Ceci se traduit sur le « graphe-dictionnaire » par la présence de faibles connexions entre différentes familles (composantes) de verbes (sommets). Nous pensons que la résolution de ce problème passe par l’élimination de ces connexions douteuses. Aussi, la caractérisation de la synonymie entre deux verbes est-elle reformulée de la manière suivante : deux verbes sont synonymes s'ils appartiennent à la même composante N-connexe du graphe de dictionnaire. Par ailleurs, la synonymétrie qui mesure la force de la synonymie entre deux verbes est inversement proportionnelle à la distance entre ces deux verbes à l’intérieur de la composante N-connexe. Ainsi, nous utilisons la notion de synonyme d’ordre p d’un verbe pour désigner la synonymétrie entre un verbe et ses synonymes. 5.2 Algorithme L’algorithme de recherche des synonymes d’ordre p d’un verbe donné est une implémentation de la formule suivante : {Synonymes d’ordre p} = {Synonymes directs des synonymes d’ordre p-1} \ {Synonymes hors composante N-connexe} \ {Synonymes d’ordre i tel que i < p}. liste_synonymes Calculer_synonymes(verbe V,int p) { int j = 0; liste_synonymes Sj = {V}, Sj+1 = φ, Stotal = {V}; tant que (j < p) { pour chaque élément Vk de Sj { SDk = synonymes directs de Vk; calculer N en fonction de Vk; détecter la composante N-connexe de Vk; SDk=SDk \ verbes hors composante; Sj+1 = Sj+1 ∪ SDk; } j++; Sj=Sj+1 \ Stotal ; Stotal = Stotal ∪ Sj ; } retourner Sj ; } 6 Conclusion Dans cet article, nous avons étudié la synonymie entre verbes du dictionnaire en tentant d’enrayer le problème de la polysémie qui affecte négativement cette synonymie à travers les liens obtenus transitivement entre verbes. Pour ce faire, nous avons proposé une reformulation de la synonymie en utilisant la notion de N-connexité définie dans ce même article. Ceci nous a mené à décomposer le graphe en composantes N-connexes, chacune des composantes ainsi définies correspondant à un sens élémentaire. Nous avons ensuite utilisé la synonymétrie pour mesurer, à l’intérieur d’une composante N-connexe d’un verbe donné (groupe de synonymes), le degré de ressemblance de chacun des verbes de la composante avec le verbe de départ. Ce calcul a permis de définir l’ordre de synonymie (synonymie d’ordre p : plus ou moins proche). Cette reformulation de la synonymie a été à la base d’un outil informatique graphique d'interrogation de dictionnaire que nous avons développé et mis au point dans le but est de faciliter la consultation de ce dernier. Les résultats que nous avons obtenus sont encourageants. Toutefois, il faut noter que ces résultats dépendent grandement de la valeur de N. En effet, une valeur élevée de N (contraignante) permettrait d’obtenir de vrais synonymes et donc de trouver une solution au problème de la métaphorymie, mais elle pourrait aussi entraîner la perte de certains autres vrais synonymes. Par contre, une valeur faible de N (souple) ferait entrer dans la composante N-connexe des verbes métaphoriques confondant ainsi, dans la même composante plusieurs sens élémentaires. Par ailleurs, nous avons remarqué que la valeur de N doit dépendre du verbe examiné (de départ) et, par conséquent, ne peut être fixe. Ceci peut être expliqué par la richesse du dictionnaire et par l’hétérogénéité de son contenu se traduisant par un graphe dans lequel les éléments de certaines composantes N-connexes entretiennent beaucoup de relations les uns avec les autres alors que d’autres composantes sont formées de nœuds faiblement liés. Toutes ces raisons prouvent bien que le choix de N est crucial et qu’une attention particulière doit lui être prêtée. Il semble primordial de remplacer le choix empirique de N adopté jusqu’alors par une méthode plus robuste. Plusieurs stratégies pourraient être explorées (statistiques, linguistiques, …). Références Duvignau K., Fabre C., Ferraty F., Gasquet O., Gaume B., Jouve B., Lang J., Pery-Woodley M.P. (2000). Les dictionnaires de langue : des graphes aux propriétés topologico-sémantiques ? Etats Généraux du Programme de REcherches en Sciences COgnitives de Toulouse (PRESCOT), Toulouse. François J., Manguin J.L., Victorri B. (2003). La réduction de la polysémie adjectivale en cotexte nominal : une méthode de sémantique calculatoire. Cahier du Crisco no 14, septembre 2003, Université de Caen. Gosselin L. (1996). Le traitement de la polysémie contextuelle dans le calcul sémantique. Intellectica 1996/1, 22, 93117. Le Blanc B., Dion D., Auber D., Mélançon G. (2001). Constitution et visualisation de deux réseaux d'associations verbales. 2nd Colloque sur Agents Logiciels, Coopération, Apprentissage et Activité humaine (ALCAA), 37-43. Le Loupy C B. (2002). Evaluation des taux de synonymie et de polysémie dans un texte. Conférence TALN 2002, Nancy. Lyons J., (1990). Sémantique linguistique. Paris: Larousse Manguin J.L., Victorri B. (1999). Représentation géométrique d’un paradigme lexical. Conférence TALN 1999, Cargèse. Ploux S., Victorri B. (1998), Construction d‘espaces sémantiques à l‘aide de dictionnaires de synonymes, TAL , 39, n°1, pp 161-182. Venant F., (2003). Géométriser le sens. Les Journées Graphes, Réseaux et Modélisation, ESPCI, Paris. Victorri B., Fuchs C. (1996). La polysémie, construction dynamique du sens. Paris: Hermès.