UTILISATION D'UNE BANQUE DE DONNÉES DE TEXTES LATINS LEMMATISÉS ET ANALYSÉS. PROBLÈMES SPÉCIFIQUES

Téléchargement

Gérald PURNELLE

Université de Liège

LASLA

UTILISATION D'UNE BANQUE DE DONNÉES

DE TEXTES LATINS LEMMATISÉS

ET ANALYSÉS.

PROBLÈMES SPÉCIFIQUES

AUX DONNÉES LINGUISTIQUES

Mon

propos,

cours

cette

communication,

sera

vous

pré-

senter

conjointement

deux

réalisations

LASLA,

Laboratoire

d'Analyse

Statistique

des

Langues

Anciennes

l'Université

Liège.

s'agit

d'une

part

banque

données

textes

latins

classiques

lemmatisés

analysés,

ensuite

CD-Rom

sur

lequel

sera

très

pro-

chaine

diffusé

cette

banque

données.

présenterai

d'abord

brièvement

notre

Laboratoire.

LASLA a

été

fondé

l'Université

Liège

1961

par

Louis

Delatte

son

direc-

teur

actuel

est

Joseph

Denooz.

Comme

son

nom

l'indique,

labora-

toire

s'était

fixé

pour

but,

dès

ses

débuts,

l'étude

des

textes

grecs

latins

moyen

des

méthodes

statistiques.

Conjointement,

ses

membres

ont

très

tôt

entrepris

d'appliquer

ces

textes

les

techniques

informatiques,

qui

commençaient

tout

juste,

l'époque,

entrer

dans

l'usage

domaine

philologique.

C'est

ainsi

que

des

programmes

lemmatisation

d'analyse

morphologique

ont

été

développés,

initiale-

295

G,PURNELLE

ment

par

Etienne

Evrard,

appliqués

divers

textes

des

deux

langues.

C'est

moyen

ces

procédures

que

s'est

progressivement

constituée

notre

banque

données.

dirai

quelques

mots

cette

procédure

appelée

lemmatisa-

tion,

importante

pour

compréhension

suite

cette

présenta-

tion.

"Lemmatiser"

texte

consiste

rapporter

chaque

mot

texte

son

lemme,

c'est-à-dire

forme

qui

représente

dans

dic-

tionnaire

référence.

Ainsi,

lemme

patrem

sera

pater,

celui

feci

facta

sera

facio,

celui

fero

sera,

selon

les

cas,

verbe

fero,

"por-

ter"

l'adjectif

ferus.

n'insiste

pas

maintenant

sur

l'extrême

utilité

lemmatisa-

tion

dans

cas

latin:

Mlle

Sylvie

Mellet

parle

ici

même.

vais

toutefois

décrire

brièvement

les

procédés

lemmatisation

employés

LASLA.

Tout

d'abord,

faut

savoir

que

procédure

lemmatisation

que

nous

utilisons

pour

latin

permet

également

produire

pour

chaque

forme

son

analyse

morphologique

complète.

L'ajout,

par

des

procédés

automatiques,

ces

informations,

accroît

spectaculairement

richesse

nos

données,

déjà

assurée

par

lemmatisation.

Pour

lemmatiser

les

formes

d'un

texte,

nous

utilisons

LASLA

deux

procédures

différentes,

qu'il

n'est

pas

inutile

décrire

briève-

ment.

méthode

utilisée

est

plus

simple

plus

sommaire

pour

grec

ancien,

plus

riche

complexe

pour

latin

français.

Pour

grec,

tout

texte

est

lemmatisé

moyen

d'un

lexique

com-

prenant

les

formes

déjà

connues

système.

Chaque

forme

est

accom-

pagnée

son

lemme,

enregistré

une

fois

pour

toutes,

d'un

seul

code

catégorie

grammaticale.

Etant

donné

faible

taux

d'amphibologie

grec

(comparé

latin),

les

formes

donnant

lieu

plusieurs

lem-

matisations

sont

relativement

rares;

tâche

philologue

qui

exami-

les

résultats

procédure

consiste

donc

essentiellement

une

vérification.

Par

ailleurs,

les

formes

qui

n'ont

jamais

été

rencontrées

enregistrées

précédemment

sont

pas

lemmatisées,

philologue

doit

faire

manuellement.

lexique

est

progressivement

enrichi

moyen

des

formes

nouvelles.

permet

actuellement

lemmatiser

automatiquement

plus

90 %

des

formes

d'un

texte

grec

prose.

méthode

utilisée

pour

latin

est

toute

différente:

riches-

l'information

produite

automatiquement

est

plus

grande,

mai~

296

Banque

de données de textes

latins

travail

demandé

philologue

également.

programme

lemmati-

sation

d'analyse

consulte,

pour

chaque

forme,

deux

fichiers

lexique

radicaux

une

table

désinences.

Chaque

radical

est

codé

selon

morphologie,

même

que

chaque

désinence.

Sommairement,

procédure

peut

décrire

comme

suit.

Chaque

forme

est

progressi-

vement

découpée

deux

parties

depuis

fin;

pour

chaque

segment

final

ainsi

isolé

table

des

désinences

est

consultée;

segment

est

identifiable

comme

désinence,

reste

mot

(le

premier

segment)

est

recherché

dans

lexique

des

radicaux;

s'il

s'y

trouve

porte

des

codes

morphologiques

compatibles

avec

désinence,

une

lemmatisation

une

analyse

morphologique

complète

sont

produites.

Cette

méthode

permet

d'atteindre

une

information

maximale,

tout

correspondant

bien

haut

degré

d'amphibologie

langue

latine.

Cependant,

ces

deux

facteurs

(l'ambiguïté

langue

richesse

l'information

grammaticale

produite)

font

que

pour

plupart

des

formes

d'un

texte

programme

propose

plusieurs

lemmes

analyses.

C'est

philo-

logue

qu'il

revient,

pour

chaque

mot

texte,

choisir

bon

lemme

bonne

analyse

parmi

les

propositions

l'ordinateur.

Etant

donné

les

caractéristiques

lexicologiques,

morphologiques,

syntaxiques

sty-

listiques

latin,

est

actuellement

impossible

développer

une

méthode

levée

automatique

des

ambiguïtés

pour

cette

langue.

tâche

humaine

est

donc

plus

lourde,

mais

c'est

prix

que

l'on

peut

s'assurer

tous

les

avantages

lemmatisation

tout

gain

d'une

analyse

morphologique

complète.

voit

tout

l'intérêt

qu'il

y a à

disposer

fichiers

textes

lem-

matisés

n'y

reviens

pas.

J'en

termine

avec

cette

description

des

procédures

signalant

que,

dans

notre

système,

chaque

verbe

subordonné

est

marqué

par

code

indiquant

son

type

subordination

nature

subordonnant

qui

l'introduit.

Cette

opération

marquage

est

strictement

manuelle.

soumettant

texte

latin

cette

méthode,

obtient

finale-

ment

fichier

séquentiel,

dont

chaque

enregistrement

correspond

mot

texte

présente

forme,

son

lemme,

son

analyse

morpho-

logique

complète

son

éventuel

code

subordination.

Les

réalités

morphologiques

codées

sont

(selon

les

formes)

catégorie

grammati-

cale,

sous-catégorie,

cas,

nombre,

degré,

voix,

mode,

temps,

personne.

J'ajouterai

dernier

point,

important.

Une

des

caractéristiques

latin

est

présenter

des

vocables

dont

les

lemmes

sont

homo-

297

G,PURNELLE

graphes.

Deux

exemples

parlants:

y a

dans

dictionnaire

deux

mots

LABOR;

l'un

est

substantif

signifie

"travail",

l'autre

est

verbe

signifie

"glisser";

y a

deux

mots

POPVLVS,

tous

deux

substantifs;

l'un

signifie

"le

peuple",

l'autre

"le

peuplier".

Pour

distinguer

ces

lemmes

homographes

nous

utilisons

des

indices

chiffrés,

qui

affectent

les

lemmes

homographes

dans

les

enregistrements.

Ces

indices

sont

générés

automatiquement

par

procédure

lemmatisation,

même

titre

que

les

lemmes.

Ainsi,

l'accusatif

laborem

sera

lemmatisé

LABOR

mais

verbe

labitur

sera

placé

sous

LABOR

Telles

sont

donc

les

informations

produites

conservées

pour

chaque

mot

d'un

texte

latin.

Depuis

longtemps

déjà,

était

possible

d'exploiter

nombreuses

directions

banque

données

que

for-

ment

les

textes

latins

lemmatisés

LA8LA.

suffit,

réalité,

quelques

programmes

informatiques

pour

"interroger"

notre

banque

données

selon

nombre

important

points

vue.

est

ainsi

possible

consulter

cette

banque

pour

chercher

toutes

les

occurrences

d'un

lemme

(un

lexème),

d'une

catégo-

rie

grammaticale,

d'un

cas,

d'un

mode,

d'une

combinaison

critères

grammaticaux,

d'un

type

précis

subordination.

est

également

pos-

sible

cumuler

ces

recherches

produire

tous

les

contextes

où

deux

critères

coexistent.

Chacune

ces

interrogations

peut

faire

l'ob-

jet

dénombrements,

ceux-ci

peuvent

être

comparés.

sont

là

que

quelques

exemples

des

virtualités

nos

fichiers.

nombre

philologues

linguistes

qui

ont

recours

n'a

fait

que

croître

ces

dernières

années.

Parvenu

stade

ces

activités,

considérant

l'ampleur

collection

textes

latins

ainsi

constituée,

LA8LA

décidé,

y a

deux

ans,

profiter

des

récents

développements

micro-informatique,

afin

d'améliorer

significativement

façon

dont

met

cette

informa-

tion

disposition

communauté

scientifique.

accord

été

passé

avec

les

Editions

Hachette,

qui

sont

chargées

réalisation,

fabrication

diffusion

CD-Rom.

terme

d'une

ample

entre-

prise

d'harmonisation

banque

données,

LA8LA

est

aujour-

d'hui

mesure

publier

volumineux

corpus

textes

latins

lem-

matisés

analysés.

corpus

comprend

1276 023

mots;

couvre

oeuvres

auteurs

différents.

plus

ancien

est

Caton,

dont

les

oeuvres

sont

datées

début

Ile

siècle

av.

J.-C.

plus

récent

est

Ausone,

IVè

siècle.

Certains

auteurs

sont

intégralement

repris

dans

corpus,

298

Banque

données

textes latins

d'autres

n'y

figurent

que

partiellement.

vais

maintenant

décrire

quelques

mots

les

différentes

fonc-

tionnalités

logiciel

qui

accompagnera

CD-Rom

permettra

l'exploiter.

Pour

chacune,

donnerai

plusieurs

exemples

suscep-

tibles

d'illustrer

fois

l'usage

que

recherche

peut

faire

nos

don-

nées

l'utilité

procédé

lemmatisation.

L'utilisation

logiciel

comprend

trois

étapes

principales

définition

d'un

corpus

recherche,

définition

l'objet

recherche,

l'examen

des

résultats.

décrirai

surtout

seconde.

mot

première:

est

possible

choisir,

pour

une

recherche,

tout

corpus,

seul

auteur,

une

seule

oeuvre,

plusieurs

oeuvres

plu-

sieurs

auteurs.

Chaque

corpus

défini,

c'est-à-dire

chaque

liste

d'oeuvres

exploiter,

peut

être

sauvegardé.

logiciel

permet

deux

types

requêtes:

requête

simple

recherche

combinée.

première

porte

que

sur

seul

objet,

seconde

sur

deux

trois

objets

dont

recherche

cooccurrence.

Avant

définir

les

possibilités

seconde,

m'intéresserai

d'abord

aux

objets

recherche

eux-mêmes.

Chaque

élément

l'ensemble

d'informations

aSSOClees à

une

forme

textuelle,

telles

que

les

décrites,

peut

faire

l'objet

d'une

recherche

forme,

lemme,

les

codes

morphologiques,

code

subordination.

Ceci

permet

d'exploiter

toutes

les

virtualités

base

données.

est

possible

d'exploiter

champ

"lemme"

des

enregistrements

(ou

plus

précisément

l'index

qui

est

extrait)

afin

d'obtenir

toutes

les

occurrences

d'un

lexème,

quelles

que

soient

les

formes

qui

repré-

sentent

dans

corpus.

Dans

l'interface

développé,

s'agit

remplir

champ

"lemme",

qui

provoque

déroulement

d'une

liste

alpha-

bétique

tous

les

lemmes

attestés

sur

CD-Rom.

Dans

cette

liste,

les

lemmes

homographes

sont

accompagnés

d'une

explicitation

propre

distinguer

leurs

sens.

L'utilisateur

peut

choisir

seul

lemme

tous

les

homographes.

genre

requête

intéressera

les

études

lexicologiques

même

historiques,

recherche

passages

parallèles,

mais

aussi

réflexion

linguistique,

lemme

est,

par

exemple,

subordonnant,

une

préposition,

adverbe,

une

conjonction.

Donnons

rapidement

quatre

exemples

qui

illustrent

les

différentes

utilités

lemmatisa-

299

1 / 13 100%

Documents connexes

Série 2

Un Lemme de suite extraite - Jean

Étude du degré des représentations irréductibles

Série 13 Fichier

Théorème de Lie–Kolchin

Le lemme de Zorn Une preuve l mentaire S - Les

Théorème faible de progression arithmétique de

Intégrale de Fresnel

Endomorphismes cycliques

L LE CD-ROM DE TEXTES LATINS CLASSIQUES DU LAS/.A

La fonction d`Euler

Fractions continues limitées et théorie des langages

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

UTILISATION D'UNE BANQUE DE DONNÉES DE TEXTES LATINS LEMMATISÉS ET ANALYSÉS. PROBLÈMES SPÉCIFIQUES

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

UTILISATION D'UNE BANQUE DE DONNÉES DE TEXTES LATINS LEMMATISÉS ET ANALYSÉS. PROBLÈMES SPÉCIFIQUES

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib