Prédicats logiques / prédicats linguistiques pour la consultation de

Téléchargement

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

Prédicats logiques /prédicats linguistiques

pour

la consultation de base de données

en langue naturelle

Béatrice

BOUCHOU,

Denis MAUREL, Barbara KALTZ

Absh'act. In this paper,

are suggesting to lackle the

lUnch

debated issue

processing

nalural language queries

data bases

adifferent perspective.

Aner

discussing TEAM, a

system typical

an analysis based on logical predicates,

present an application

are

currently developing. Our approach is then illustrated through three examples

queries,

previollsly used and discussed

TEAM. The system

are proposing appears to he less

complex and to generate quick and pertinent answers to queries.We are presently working on

amore general prototype

the system. Our aim is not to create yel anolher ad hoc product.

This is why

have chosen to extend our linguistic study to both French and Gennan.

Keywords: database, queries, NLP, finite

state automata, transducers.

Mots~clés:

base de données, interrogations,

TaIn, automates ànombre fini d'états, trans-

ducteurs.

Introduction

L;accès àl'information stockée dans les bases

données est l'un des

principaux axes grand public de l'infonnatique, c'est pourquoi le défi

[8J Béatrice BOUCHOU :

e~mail:

[email protected]

LI (Laboratoire d'Infonnatique de l'Université de Tour), E3i,

64, avenue Jean Portalis, 37200 Tours

Denis

MAUR

e~lllail

Illaurel@univ~tours.fr

LI.

(Laboratoire d'Informatique de l'Université de Tour), E3i,

64 avenue Jean Portalis, 37200 Tours

Barbara KALTZ :

e~mail

:kaltz@univ·tours.fr

LTI (Langues et Technologie de t'Information), Université de Tours,

Rue des Tanneurs, 37000 Tours,

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

128

Béatrice

BOUCHOU,

Denis

MAUREL.

Barbara

KAt

langue naturelle est important dans ce domaine. Le traitement

automatique des questions en langue naturelle posées àune base de

donnée est donc un sujet d'études déjà ancien. Beaucoup de proposi-

tions.ont été développées dans ce domaine au cours des années 80,

accompagnant la maturation des principes du calcul symbolique logi-

que. Ces systèmes font d'abord une analyse syntaxique complète de

question, puis ils extraient de l'arbre syntaxique (et d'autres sources

d'information) ce qui est nécessaire àl'interprétation de

question en

termes d'éléments de

base de données.

Il est intéressant de noter cependant que les premiers travaux dans

ce domaine utilisent un lexique, pour détecter des mots clefs dans

question, et

théorie syntaxique de Z.S. Harris, pour trouver une

réponse

(BA8EBALL,

cf. Green et al., 1960). C'est ce que nous faisons,

renouant ainsi avec une piste de travail abandonnée depuis. La limite

technique mise en œuvre dans

BA8EBALL

réside dans son lien

trop étroit avec l'information traitée. En d'autres termes, on

n'a

obtenu de bons résultats de cette manière que pour des produits «

hoc

»,

conçus dans un but trop particulier (Sabah 1997). Nous répon-

dons àce problème en utilisant un dictionnaire électronique contenant

le vocabulaire du domaine et une copie complète de la base (voir

§3.1). Ce qui est rendu possible par les avancées algorithmiques de

théorie des automates et transducteurs ànombre fini d'états. De cette

façon, l'information

n'est

plus dans les codes de traitement, mais

exclusivement dans un dictionnaire, en partie créé lors de l'installation

logiciel.

Les travaux qui suivirent

BA8EBALL

s'attachèrent àexploiter auto-

matiquement la base de données pour alimenter le lexique (Kaplan

1984, Grosz et

al.

1987, Clifford 1988). Le système

TEAM

développé

par

Grosz et ses collègues apour objectif principal cette «porta-

bilité », c'est-à-dire la faculté de s'adapter aisément àchaque nouvelle

base de données. Pour cela, il est conçu pour interagir avec deux types

d'utilisateurs, un expert de

base de données,

d'une

part, l'utilisateur

final, d'autre part. Le système est général et il constmit sa connais-

sance de

base de données lors de son installation. Cela se fait par

interaction avec l'expert dé

base de données. L'essentiel de l'inter-

prétation dépend des directives de cet expert. Nous adoptons la même

démarche, mais en

simplifiant dans

mesure où nous réduisons

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

POUR

CONSULTATION

BASE

DONNÉES

LANGUE

NATURELLE

129

participation de l'administrateur de la base au

minimum:

seule une

bonne connaissance de sa base de données lui est demandée.

système

TEAM

est un exemple abouti de l'approche basée sur

une analyse syntaxique complète, suivie d'analyses sémantiques sur

les arbres obtenus. Toutes ces opérations sont réalisées dans

forma-

lisme du type logique du premier ordre. Or, une fois isolés les consti-

tuants sémantiques peltinents dans la question, il apparaît que les trois

quarts des nœuds de l'arbre syntaxique ne représentent que la «glue

syntaxique)} (Grosz et

al.

1987,

p.203)

de la phrase originelle,

n'apportent rien àl'interprétation.

pourtant ces nœuds

ont

été pris

en compte dans toute la première phase d'analyse.

autre exemple

axé sur la logique est décrit dans (Péquegnat

al.

1988):

cinq bases

de connaissances ysont constituées, représentations logiques des don-

nées linguistiques, conceptuelles (la base de données)

sémantiques.

Un système complet de réécriture est nécessaire pour chaque passage

d'une

représentation àune autre

...

Les traitements en sont alourdis

d'autant.

Nous

ne passons pas par toutes ces

étapes:

nous exploitons

une connaissance linguistique codée par les prédicats linguistiques, à

l'aide

de transducteurs.

Àla fin des années 80, le tour de la question de l'interrogation de

base de

dOl1nées

en langue naturelle semblait avoir été fait et la

recherche dans ce domaine

s'est

alors donné des buts plus

généraux:

le dialogue homme-machine,

d'une

part, l'approfondissement des

outils d'analyse du langage naturel, d'autre part. Les avancées

conjointes des outils linguistiques et infonnatiques pennettent, aujour-

d'hui,

d'aborder

la question autrement, de façon plus performante et

plus générale nous semble-t-il.

Dans la suite de cet article, nous présentons le système

TEAM

(§ 2)

le nôtre (§ 3et §4). Puis nous décrirons trois exemples d'interroga-

tions plus élaborées, exemples repris du rapport sur

TEAM

(§

5). Enfin,

nous conclurons

par

des perspectives de recherche

(§

6).Comme nous

ne souhaitons pas créer un nouveau produit ad hoc, nous avons décidé

de mener parallèlement notre étude linguistique sur le français et

l'allemand. Nous présenterons en notes quelques explications sur la

partie allemande de notre travail.

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

130 Béatrice

BOUCHOU,

Denis

MAUREL,

Barbara

KALTZ

Approches

par

prédicats

logiques:

système

TEAM

Le système

TEAM

est représentatifdes propositions

consultation de

base de données

langue naturelle formalisées àl'aide

logique.

Il représente pour nous

une

bonne base

comparaison dans

mesure où

est décrit en détails dans (Grosz 1987).

2.1. Les grandes lignes du système

TEAM

système

TEAM

aété développé par une équipe

1'«

Artificial

Intelligence Center, SRI International, Menlo Park, CA 94025,

USA

».

Il est présenté comme

résultat

quatre années de travaux,

effectués dans

but principal d'améliorer

«transportabilité» des

systèmes d'interrogation

bases

données

langue naturelle.

principe essentiel adopté dans ce but est

concevoir un sys-

tème général, dans un premier temps, et

confier àun spécialiste de

base de données

soin

compléter

système en fonction de

cette base, dans une phase d'installation.

2.2. Phase d'acquisition

système

TEAM

propose une phase d'acquisition sophistiquée, à

travers une bonne interface graphique:

phase d'installation permet

de compléter plusieurs composants

système en fonction des élé-

ments de

base de données, décrits par l'administrateur de cette base.

Précisément, cette phase affecte les composants suivants:

lexique:

contient les pronoms, conjonctions, déterminants,

noms, adjectifs et verbes, etc. Dans

phase d'acquisition, ce lexi-

que est enrichi des noms

des

champs et de leurs valeurs, ainsi que

des mots communs désignant les fichiers. L'information associée à

chaque mot est d'ordre syntaxique (catégorie, sous-catégorie, mor-

phologie) et sémantique. L'information sémantique dépend de

catégorie syntaxique: ainsi les adjectifs et les verbes sont associés à

un prédicat logique présent dans

modèle conceptuel, auquel ils

font référence. Plus précisément, une correspondance est établie

entre les constituants syntaxiques de

phrase et les arguments

prédicat.

-Le schéma conceptuel:

représente les concepts

domaine de

base.

est organisé selon une «hiérarchie

types» très proche

Extrait de la Revue Informatique et Statistique dans les Sciences humaines

POUR

CONSULTATION

RASE

DONNÉES

LANGUE

NATURELLE

l31

d'une organisation orientée objets. Chaque champ

la base est

associé aux objets de la hiérarchie du modèle conceptuel qui pour-

raient intervenir dans ce champ. Par ailleurs un ensemble de prédi-

cats permet d'associer chaque objet

schéma conceptuel àun

objet du schéma

base de donnée. Dans la phase d'acquisition

ce modèle est enrichi de noms, adjectifs, verbes, etc.

-Le schéma de la base de données:

est destiné à

traduction de

la fOilliule logique obtenue àpartir

question vers une requête à

la base de données (en langage

SODA).

Il contient quatre types

d'infom13tions,

définition des objets du schéma conceptuel en

termes

fichiers et

champs,

liste de synonymes pour chaque

objet, une représentation logique

la structure de

base, et

liste

des champs clefs des tables. C'est l'administrateur

la base de

données qui

indiquer toutes ces informations.

·r-----------------------------------------------------------------,

lestion

Gmmm,;. _DIALOGlC ,

DIAMOND ,

bre

~-------------------J

ntaxique •

Fonctions ,

Lexique ,

sémantiques ,ACQUISITION

bre

nnoté r-------------------------J

,Fonctions ,

,pragmatiques

H--

,,Schéma conceptuel :

,•

,(hiérarchie d'objets,

,Détennination ,

,de portée ,propriétés pragmatiques)

/'7

nue

___________________

.&ique

fTraduction

1---

Scbéma de la base de

quête en données, règles

ODA

correspondances

réponse

Figure 1:Lefonctionnement général de TEAM

1 / 23 100%

Documents connexes

Vitrine d`affichage SP liège

RenoWatt entre dans le vif du sujet et lance ses trois - GRE

GEORGES-ÉRIC LANTAIR

Formulaire - Université de Liège

index.php?upd=1391591532&url=http://popups.ulg.ac.be/0037 9565/index

t e J u

Dimanche 20 septembre 2015

SUARA - CHENE LIEGE ok - L`Amichi di u Rughjone

Télécharger le texte complet / Download the full text (PDF)

Alimentation et Cancer : Mythe ou Réalité

Guide du Deuxième Module

Agriculture, Pêche

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Prédicats logiques / prédicats linguistiques pour la consultation de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Prédicats logiques / prédicats linguistiques pour la consultation de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib