Réunion Axe 1 – bases de données 20 janvier 2003 Présents : Bernard Caron, Christian Chanard, Jean-Luc Chevillard, Alexandre François, Michel Jacobson, Martine Mazaudon, Boyd Michailovsky, Elsa Oréal, Christiane Pilot-Raichoor, Bernard Pottier, Nicole Revel, Guillaume Segerer, Marie-Christine Varol, Jeanne Zerner. Exposés des représentants des programmes : 1. Jean-Luc Chevillard / Elsa Oréal – « Parties de discours mineures » Présentation du programme Une trentaine de chercheurs travaillent dans 3 ateliers. Atelier histoire : objet d'étude = tradition grammaticale dans différents groupes de langues. But : s'occuper de ce qui se trouve rejeté à la fin dans les grammaires traditionnelles, regroupé sous l'étiquette de "particules". Dans cet atelier, on examine ce que tel ou tel grammairien ancien aura dit des questions sur les parties du discours mineures. Dans la grammaire grecque, on trouvera des choses sur les onomatopées - à défaut de choses sur les idéophones, dans une grammaire japonaise, on en trouvera ou non selon les époques. Dans cet ensemble des parties du discours mineures, il y a encore d'autres choses que les idéophones à explorer. Il faut voir ce que chaque tradition a à dire sur un élément ou un autre (ex : particules de coordination) et chacun doit y apporter sa pierre, pour chaque élément précis. A chaque fois il y a une grande masse de données, traitée comme un tout et dans laquelle on essaie de tirer un élément pour le confronter aux différentes traditions, différents groupes de langues. D'un point de vue de description, il y a certainement énormément de choses à trouver. Atelier Description : s'intéresser directement à ces parties du discours mineures en réunissant des spécialistes de première main. Groupe assez nombreux. On peut pas s'occuper de tout, donc on a restreint l'objet d'étude aux idéophones. Notion de déjà et encore : (atelier en démarrage) notion de déjà et encore, la manière dont elle s'exprime dans des langues différentes. Proposition de participation à l'axe 1 Elsa : Pour les idéophones, il semble utile d'avoir une base qui donne une idée de ce qu'on a comme types d'idéophones (champs sémantiques couverts, fonctionnement grammatical) dans les divers groupes de langues abordés. A terme, on voudrait ne pas se limiter aux idéophones (ce serait peut-être l'occasion de réunir des données sur les particules énonciatives en général). L'idéal serait que chaque participant donne un exposé de la façon dont les particules se comportent dans sa langue d'études (Elsa se porte volontaire pour "donner l'exemple"). J-Luc : Il se pose ici de voir comment présenter les données de façon à faire sens pour les participants d'autres axes. On a beaucoup travaillé avec des listes (d'idéophones, etc.). Par exemple, on a en tamoul environ 600 idéophones listés dans le Tamil Lexicon. Le critère formel pour définir les idéophones en tamoul, c'est la fin du mot i.e. enal qui est une forme du verbe dire. Ce sont des emplois figés (mais très productifs) de enal. Au cours de l'atelier, on s'est rendu compte que beaucoup de langues forment leurs idéophones avec un verbe dire, et beaucoup d'autres avec un verbe faire. Est-ce qu'on peut intéragir ici avec d'autres programmes de la fédération ? Par exemple le programme qui s'occupe des intéractions sémantiques. A partir de la liste du Tamil Lexicon, on peut générer une liste en utilisant les numéros (MTL012) comme des coordonnées, éliminant les mots tamouls, et en indexant les mots anglais qui apparaissaient et en les triant par fréquence d'apparition dans le dictionnaire, pour voir s'il existe des récurrences. L'idée étant que les idéophones doivent couvrir un champ sémantique particulier. On a utilisé dans cet exemple l'anglais comme langue des description sémantique. En Afrique, on Asie, on aura peut-être pas la même sémantique représentée dans les idéophones. Comment peut-on définir formellement ce que recouvrent les champs sémantiques ? Quel est le contenu du champ sémantique des émotions (peur, effroi, etc...) ? Est-ce que la confrontation de listes peut apporter quelque chose à ça ? En fait la question se pose d'un dialogue du programme trois avec le programme 9 par exemple, qui donne une lumière nouvelle à ce qui sera recherché au sein des ateliers du 3. On peut structurer les listes pour créer des matrices avec en colonne les différents types morphologiques : morphologie simple, morphologie gémellaire, etc... et en ligne les types de suffixes. On est à la recherche des critères pour repérer le fonctionnement des idéophones, tant morphologique que sémantique, etc. : 1) Dimension morphologique : on a affaire à des procédés morphologiques pour pointer et isoler une partie du lexique qui a la fonction d'idéophone. Si on le fait sur beaucoup de langues, on peut voir s'il y a des variations de comportement, etc... 2) Dimension sémantique : semble-t-il réaliste de voir s'il existe des grands champs sémantiques qui auraient un sens en fonction d'un découpage géographique mondial, en l’appliquant à un maximum de langues ? Le programme 1b pourrait servir pour que chacun, même sans participer à l'axe 3, puisse apporter des données qui puissent servir au programme 3 ? Il s'agira ainsi d'allers-retours entre langue et hypothèses, etc. La base de données pourra donner des idées de recherche d'éléments, ce qui permettra, en retour, de construire des hypothèses à partir des idéophones trouvés Le programme 1b est à la fois un lieu pour emmagasiner les données et en même temps un lieu de dialogue. C'est ce que propose la base de données embryonnaire du programme (http://sumale.vjf.cnrs.fr/typologie/) créée par G. Segerer. Pour l'instant, des questions et toutes sortes de données peuvent s'agglutiner sur cette base. Si elle prend de l'ampleur, il y aura lieu de la restructurer en tables différentes. La partie « idéophones » de la base peut être en interaction longue avec les chercheurs pendant que le programme 3 se préoccupe d'autres aspects. Il faut simplement que les participants des axes fassent l'effort de s'approprier cet outil. Il y a matière à synthétiser les différentes caractéristiques qui peuvent composer des idéophones. 2. Alexandre François : « Typologie des rapprochements sémantiques » Présentation du programme 9 :. Il s’agit d’étudier les associations sémantiques entre 2 sèmes. Alors que beaucoup d'autres groupes étudient de toute éternité des questions dans le domaine de la grammaire, le lexique est un peu le parent pauvre des études notamment typologiques. Or il y a des questions qu'on peut se poser concernant l'universalité des champs sémantiques. Dans chaque langue, c'est la question de la polysémie qui est posée. On a des signifiés différents pour une même forme, avec des rapprochements sémantiques qu'on va retrouver partout dans le monde, ou non. Exemple : rapprochement entre la petitesse et l'enfance (petit = personne petite, enfant) c'est un exemple de rapprochement sémantique probablement très répandu dans le monde, ce qui n'empêche pas que dans certaines langues, il n’existera pas. A l'inverse, on en trouvera de très idiosyncrasiques. Les associations entre signifiés - pour un même signifiant - peuvent être attestées par exemple dans des régions très disjointes ; bref il est intéressant d'étudier les raisons de ces degrés d'universalité. Le genre de question qu'on se pose est "une association sémantique étant attestée dans une langue, qu'est-ce que ça donne ailleurs"... Proposition de participation à l'axe 1 L'intérêt d'utiliser des bases de données est d'avoir sous la main tous les éléments permettant de confronter les différentes hypothèses sémantiques. Montrer des contres-exemples à tel rapprochement sémantique ayant lieu, en fonction des langues, etc. Il faut pas que la structuration d'une seule langue soit à la source de la structuration de la base de données. Il faudra partir du sens pour voir comment une expression est formée en langue(s). On aurait une entrée par acception. Probablement, on aura tendance à mettre une acception qu'on considère comme plus centrale qu'une autre. On pourrait avoir des renvois (liens hypertextes, par exemple), à des mots connexes dans le cadre d'une polysémie (voir, dans le document distribué, le 2a SOUFFLER : bougie, feu, vent, verre, forge). L'idée est de ne pas mettre tout ce qui concerne souffler dans la même fiche respirer, mais de les relier. Faire des fiches hiérarchisées et qui montrent chaque langue concernée par les différentes acceptions du mot respirer. De là, se connecter à des données relevant de la langue-exemple (infos sur la langue, carte géographique, etc...) Se pose la question des entrées "en français". Il faut faire attention d'utiliser des universaux comme entrées, et de ne pas se laisser dominer par le système sémantique du français. Cependant, si on utilise des notions comme "phénomène de respiration" comme entrée dans la base de données, se pose le problème de la facilité et de l’efficacité de l'interrogation de la base. Prochaine séance : 10 mars 2003.