Sous le regard de Ramsès - Reflexions

publicité
Reflexions, le site de vulgarisation de l'Université de Liège
Sous le regard de Ramsès
10/01/08
Une présentation lors du Congrès des égyptologues qui s'est tenu en mai à Rhodes, une communication
en séance plénière lors de la table ronde «informatique et égyptologie» réunie à Vienne en juillet : deux
moments-clés qui ont secoué le petit monde de l'égyptologie et officialisé les débuts de Ramsès. Ramsès
? Un extraordinaire outil qui réunit informatique et égyptologie. De quoi percer les derniers secrets de
l'écriture hiéroglyphique. Un travail de longue haleine mené à bien par Jean Winand et son équipe du service
d'égyptologie de l'ULg.
Disposer d'un outil de recherche efficace d'un point de vue
linguistique et philologique : tel est le point de départ du projet Ramsès. «Nous avions constaté, explique
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-1-
Reflexions, le site de vulgarisation de l'Université de Liège
le professeur Jean Winand, que la recherche en langue égyptienne était freinée faute d'un accès aisé à la
documentation. Si vous avez une idée et que vous voulez tester votre hypothèse, il faut retourner au texte.
C'est-à-dire soit relire vos notes, mais elles ne sont jamais complètes, soit relire tout le corpus. Cela devient
vite impossible. Il fallait concevoir des outils pour accéder rapidement à l'information.»
Des outils, il en existe depuis que l'égyptologie existe. Le projet Ramsès ne part pas de zéro. Le premier outil
qui vient à l'esprit est évidemment le dictionnaire. Mais ils sont souvent anciens et ne donnent pas toutes
les références d'un mot, se contentant de citer quelques exemples. Cela ne suffit pas pour des chercheurs.
Ceux-ci doivent viser l'exhaustivité. En outre, les dictionnaires ne sont trop souvent que des listes de mots. Ils
renseignent peu ou pas sur la grammaire et ce n'est pas eux qui vont permettre de travailler, par exemple, sur
les subjonctifs de tous les verbes d'un certain type. Et ce n'est pas eux non plus qui vont permettre la recherche
d'un mot à partir de ses différentes flexions. Autre exemple: dans l'écriture hiéroglyphique (Pour s'y retrouver
dans les différentes langues et écritures, lire Les écritures et les langues de l'ancienne Egypte), il n'y a pas
d'orthographe proprement dite, tout au plus des habitudes graphiques. Un même mot peut apparaître avec des
graphies un peu différentes. Mais un chercheur peut avoir besoin de toutes les graphies. Il lui faudrait donc un
outil où les occurrences seraient triées selon les graphies. Et encore, il ne s'agit là que de recherches simples.
Les recherches combinées sont impossibles avec les outils existants. Comment faire si l'on désire repérer
toutes les conjonctions d'un texte et mettre en évidence le temps du verbe qui les suit ? Comment aussi repérer
facilement toutes les phrases qui comportent une expression composée de plusieurs termes ? Ou affiner les
résultats et recherches en fonction de la date du document, du type d'écriture, hiéroglyphique ou hiératique,
ou en fonction du genre littéraire et de l'origine géographique ? Actuellement, tout cela est impossible à tester.
La création d'un outil informatique
Seule l'informatique permet de répondre à des demandes aussi exigeantes. «Nous avons eu une visée
maximaliste, se souvient Jean Winand. Nous avons dû créer une structure. Il était en effet impossible d'utiliser
les logiciels de bases de données qui existent dans le commerce, ni même de les bricoler. On a donc imaginé
un cahier des charges le plus large possible, sans limites techniques. Je ne voulais pas de la démarche inverse:
s'enfermer dans une technique, puis voir ce qu'on pouvait faire avec cela.» L'équipe liégeoise a donc travaillé
avec un collègue français qui est, et il est sans doute seul au monde dans son cas, à la fois informaticien et
égyptologue! Professeur en informatique à Paris VIII et responsable du cours d'introduction au néo-égyptien
à l'EPHE (Ecole pratique des hautes études à Paris), Serge Rosmorduc était en effet la personne idéale pour
développer la programmation informatique.
Le projet a véritablement démarré en 2006, lors de la Table Ronde "Égyptologie et Informatique" qui s'est
tenue à Oxford. L'équipe de Ramsès a conçu de front deux modules. L'un est la constitution d'un lexique
(dictionnaire) de référence, l'autre un éditeur de textes. Le programme Ramsès porte sur le néo-égyptien, la
langue vernaculaire du Nouvel Empire et de la Troisième Période Intermédiaire, aussi bien les textes en langue
hiéroglyphique que hiératique. Le corpus est constitué de textes littéraires et de textes de la pratique. Ces
derniers sont à comprendre au sens le plus large: lettres, textes administratifs, actes notariés, commerciaux,
textes juridiques. Quant aux premiers, ce sont des contes et "romans" mais aussi de la poésie et des textes de
sagesse qui sont des recueils de préceptes de vie, des textes royaux (récits de bataille, décrets) et religieux.
Mais ces derniers sont rares puisqu'ils relèvent plutôt de la langue dite de tradition, exclue du corpus de
Ramsès.
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-2-
Reflexions, le site de vulgarisation de l'Université de Liège
L'encodage des textes
Pour l'instant, l'encodage des textes est fait par des
égyptologues "à la main": ils introduisent dans l'ordinateur une translittération c'est-à-dire une transcription
de la structure phonologique des hiéroglyphes dans notre alphabet. En fonction de ce qui a été analysé, la
machine propose une lemmatisation, et affiche les flexions et les graphies (hiéroglyphes) qui existent déjà.
Toute nouveauté (mot nouveau, nouvelle graphie, etc.) viendra s'ajouter dans la base de données. Cette
opération d'encodage se fait mot à mot par l'égyptologue. «Mais nous voulons aller beaucoup plus loin, précise
Jean Winand, grâce à une thèse de doctorat en informatique qui doit déboucher sur la mise au point d'un
automate qui nous aidera à analyser la langue. Attention ! Nous ne faisons pas de la reconnaissance optique :
il est impossible de partir du signe car il n'y a pas de standardisation des signes chez les égyptologues ;
à côté d'éditions imprimées (et les fontes d'hiéroglyphes ne sont pas uniformisées), les signes sont encore
souvent dessinés à la main! L'automate partira de la translittération, la lira, fera une analyse de contexte
et, en retournant aux dictionnaires qui existent, livrera sur base statistique une proposition d'analyse la plus
vraisemblable. Nous sommes donc en train de lui apprendre des règles de syntaxe et comment combiner cela
avec la réalité morphologique.»
Dès qu'une phrase ou un texte sera encodé, l'automate pourra donc dire que tel mot est un substantif au
masculin singulier et que dans telle phrase, il est un objet direct. L'objectif n'est pas de traduire. «Pour nous,
explique Jean Winand, cela n'a guère d'intérêt. Ramsès est conçu pour faire des recherches sur des textes.
Nous retraduisons les textes nous-mêmes si nécessaire. Dans un travail scientifique, la traduction automatique
n'a aucun sens : trop lourde à mettre en place, et surtout pas assez précise. C'est vrai pour toutes les langues,
même les mieux connues.» L'automate proposera aussi des graphies. Une fois que le mot sera identifié
et analysé, l'automate retournera vers le dictionnaire existant. Il y retrouvera une série de graphies dont il
éliminera certaines en fonction de la flexion (forme du mot); il fera ensuite des choix en fonction du type de
texte, de l'époque, etc. Bien sûr, tout ce que produira l'automate sera toujours validé par l'égyptologue.
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-3-
Reflexions, le site de vulgarisation de l'Université de Liège
Comment se présentent les mots et les textes de la base de données ?
Chaque mot fait l'objet d'un bloc. Dans ce bloc, on retrouve chaque fois les mêmes éléments : le mot apparaît
dans sa translittération et sa graphie.
Il est aussi traduit, lemmatisé et analysé : il s'agit ici de la 3ème personne du singulier masculin d'un pronom
indépendant. «Supposons, explique Jean Winand, qu'on rencontre le verbe iri «faire» dans un texte et qu'on
veuille l'encoder. Je vois tout de suite qu'il est déjà dans la base de données. Je le sélectionne donc.
Immédiatement, les différentes flexions déjà attestées pour ce verbe apparaissent : en l'occurrence ici, les
différentes formes conjuguées du verbe déjà présentes dans le corpus. Si j'en sélectionne une, par exemple
l'impératif, toutes les graphies en rapport avec l'impératif s'affichent; ce sont souvent des variantes minuscules,
mais des variantes quand même puisqu'aucune règle ne régit l'orthographe. Soit je trouve mon bonheur
dans ce qui existe, soit j'ajoute cette forme nouvelle dans la base de données. Il en va ainsi pour toutes les
composantes de l'analyse.»
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-4-
Reflexions, le site de vulgarisation de l'Université de Liège
Bien entendu, seules les personnes autorisées peuvent apporter leur pierre à l'édifice. La base de données est
évidemment verrouillée. Autre nouveauté du système : il tient compte des signes critiques qui permettent de
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-5-
Reflexions, le site de vulgarisation de l'Université de Liège
donner un état le plus fiable possible du document. Par exemple, dans la portion de texte reprise ici, certains
signes apparaissent en rouge. «Ce n'est pas un hasard, explique Jean Winand. C'est également en rouge
dans le texte original. Les Egyptiens ont inventé ce moyen d'attirer l'attention. Dans leur écriture, tout se suit.
Les mots ne sont pas séparés par des blancs (c'est d'ailleurs une pratique assez récente dans l'histoire des
écritures). Une manière de mettre de l'ordre est d'utiliser le rouge. Ils signalaient ainsi les débuts de chapitre
ou de paragraphe. Cette habitude sera reprise par les Grecs puis les Romains. Le mot latin ruber, rouge, a
d'ailleurs donné le mot rubrique : groupe de mots mis en rouge pour attirer l'attention !»
Le système d'encodage permet aussi d'indiquer qu'un mot n'est pas présent dans le texte, mais qu'il faut
l'ajouter (ou pour d'autres, qu'il faut les supprimer parce que c'est une faute ou une redondance !). Le système
Ramsès est aussi le seul à encoder les ambiguïtés. Dans les manuels ou outils traditionnels, si l'égyptologue
a un doute sur une analyse, il en privilégie une, qu'il accompagne d'une note. Ramsès permet l'encodage de
toutes les analyses possibles, signale leur caractère ambigu et est capable de faire ressortir l'une ou l'autre,
qui peut alors faire l'objet d'un traitement séparé.
Des possibilités quasi infinies de recherches
Deux programmes de recherches ont été développés. L'un pour les recherches simples, l'autre pour des
recherches avancées.
Le premier est cependant déjà plus complet que tout ce qui existe d'autre actuellement. Il permet de choisir un
mot dans une liste, afin d'en retrouver toutes les occurrences, soit dans le texte qu'on est en train d'éditer, soit
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-6-
Reflexions, le site de vulgarisation de l'Université de Liège
dans toute la base. Il autorise aussi à restreindre la recherche c'est-à-dire à l'effectuer selon certaines flexions
(le pluriel par exemple) ou graphies. Evident ? Sans doute, mais les autres outils actuellement disponibles
ne permettent même pas cela !
Le programme avancé permet évidemment des recherches beaucoup plus affinées. Elles peuvent tout d'abord
être effectuées dans toute la base ou certains textes choisis selon des critères précis. Autrement dit, le système
permet de délimiter de manière fine le corpus de sa recherche. Il peut aussi travailler selon les dates ou à
l'intérieur d'une dynastie. Mais aussi selon les genres littéraires, la provenance géographique, etc. Il peut aussi
prendre comme corpus de recherche les résultats d'une recherche précédente.
Mais surtout, il permet des recherches multiples, par modules. Il est ainsi possible, par exemple, de rechercher
la présence conjointe de plusieurs mots dans un texte ou dans toute la base en fonction de critères différenciés :
par exemple, en fonction du lemme pour le premier mot, de la flexion pour le second, du lemme et de la
graphie pour le troisième. Et le résultat peut apparaître par date, type de document, par ordre alphabétique
des verbes, par type de documents, etc.
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-7-
Reflexions, le site de vulgarisation de l'Université de Liège
Uniquement sur l'Internet et gratuit
Ramsès est un projet qui a reçu un soutien important de l'ULg sous la forme d'une Action de Recherche
Concertée pour 5 ans. Outre le professeur Winand et les professeurs Vernus et Rosmorduc de Paris, l'équipe
est composée de St. Polis, L. Neven, A.-Cl. Honnay et St. Gohy, tous doctorants à l'ULg, auxquels viendront
s'ajouter dès octobre un doctorant boursier et un post-doc, "rançon" de la reconnaissance internationale des
recherches accomplies à Liège.
L'encodage de la base sera terminé dans trois ans. Le corpus sera alors fort d'un million de mots, ce qui est
exceptionnel. Aujourd'hui, la base compte déjà plus de 100.000 mots.
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-8-
Reflexions, le site de vulgarisation de l'Université de Liège
Sera-t-il accessible à tous ? Il sera diffusé uniquement via l'Internet. Il n'existera donc pas de forme «papier», ni
CD Rom, ni DVD. «Cela permet à l'utilisateur d'avoir un outil constamment mis à jour en temps réel», explique
le professeur Winand. Toutes les applications de la base ne seront cependant pas disponibles en ligne : toutes
les données seront accessibles, mais pas les possibilités de recherche avancées. «Nous avons choisi cette
formule pour faire reconnaître notre savoir faire, pas pour en limiter l'accès. Celui qui veut faire des recherches
approfondies doit prendre contact avec nous et signer un protocole d'accord où il reconnaît que ses travaux
ont été possibles grâce à l'exploitation de notre base de données. Mais il n'est pas question de faire payer les
utilisateurs: ce qui a été réalisé avec de l'argent public doit revenir au public.»
© Université de Liège - http://reflexions.ulg.ac.be/ - 19 April 2017
-9-
Téléchargement