Prédicats logiques / prédicats linguistiques pour la consultation de

Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXXV, 1 à 4, 1999. C.I.P.L. - Université de Liège - Tous droits réservés.
Prédicats logiques /prédicats linguistiques
pour
la consultation de base de données
en langue naturelle
Béatrice
BOUCHOU,
Denis MAUREL, Barbara KALTZ
Absh'act. In this paper,
wc
are suggesting to lackle the
lUnch
debated issue
of
processing
nalural language queries
of
data bases
in
adifferent perspective.
Aner
discussing TEAM, a
system typical
of
an analysis based on logical predicates,
wc
present an application
wc
are
currently developing. Our approach is then illustrated through three examples
of
queries,
previollsly used and discussed
in
TEAM. The system
wc
are proposing appears to he less
complex and to generate quick and pertinent answers to queries.We are presently working on
amore general prototype
of
the system. Our aim is not to create yel anolher ad hoc product.
This is why
wc
have chosen to extend our linguistic study to both French and Gennan.
Keywords: database, queries, NLP, finite
state automata, transducers.
Mots~clés:
base de données, interrogations,
TaIn, automates ànombre fini d'états, trans-
ducteurs.
1.
Introduction
L;accès àl'information stockée dans les bases
de
données est l'un des
principaux axes grand public de l'infonnatique, c'est pourquoi le défi
[8J Béatrice BOUCHOU :
e~mail:
LI (Laboratoire d'Infonnatique de l'Université de Tour), E3i,
64, avenue Jean Portalis, 37200 Tours
Denis
MAUR
EL
:
e~lllail
:
Illaurel@univ~tours.fr
LI.
(Laboratoire d'Informatique de l'Université de Tour), E3i,
64 avenue Jean Portalis, 37200 Tours
Barbara KALTZ :
e~mail
:kaltz@univ·tours.fr
LTI (Langues et Technologie de t'Information), Université de Tours,
Rue des Tanneurs, 37000 Tours,
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXXV, 1 à 4, 1999. C.I.P.L. - Université de Liège - Tous droits réservés.
128
Béatrice
BOUCHOU,
Denis
MAUREL.
Barbara
KAt
Tl
de
la
langue naturelle est important dans ce domaine. Le traitement
automatique des questions en langue naturelle posées àune base de
donnée est donc un sujet d'études déjà ancien. Beaucoup de proposi-
tions.ont été développées dans ce domaine au cours des années 80,
accompagnant la maturation des principes du calcul symbolique logi-
que. Ces systèmes font d'abord une analyse syntaxique complète de
la
question, puis ils extraient de l'arbre syntaxique (et d'autres sources
d'information) ce qui est nécessaire àl'interprétation de
la
question en
termes d'éléments de
la
base de données.
Il est intéressant de noter cependant que les premiers travaux dans
ce domaine utilisent un lexique, pour détecter des mots clefs dans
la
question, et
la
théorie syntaxique de Z.S. Harris, pour trouver une
réponse
(BA8EBALL,
cf. Green et al., 1960). C'est ce que nous faisons,
renouant ainsi avec une piste de travail abandonnée depuis. La limite
de
la
technique mise en œuvre dans
BA8EBALL
réside dans son lien
trop étroit avec l'information traitée. En d'autres termes, on
n'a
obtenu de bons résultats de cette manière que pour des produits «
ad
hoc
»,
conçus dans un but trop particulier (Sabah 1997). Nous répon-
dons àce problème en utilisant un dictionnaire électronique contenant
le vocabulaire du domaine et une copie complète de la base (voir
§3.1). Ce qui est rendu possible par les avancées algorithmiques de
la
théorie des automates et transducteurs ànombre fini d'états. De cette
façon, l'information
n'est
plus dans les codes de traitement, mais
exclusivement dans un dictionnaire, en partie créé lors de l'installation
du
logiciel.
Les travaux qui suivirent
BA8EBALL
s'attachèrent àexploiter auto-
matiquement la base de données pour alimenter le lexique (Kaplan
1984, Grosz et
al.
1987, Clifford 1988). Le système
TEAM
développé
par
B.
Grosz et ses collègues apour objectif principal cette «porta-
bilité », c'est-à-dire la faculté de s'adapter aisément àchaque nouvelle
base de données. Pour cela, il est conçu pour interagir avec deux types
d'utilisateurs, un expert de
la
base de données,
d'une
part, l'utilisateur
final, d'autre part. Le système est général et il constmit sa connais-
sance de
la
base de données lors de son installation. Cela se fait par
interaction avec l'expert
la
base de données. L'essentiel de l'inter-
prétation dépend des directives de cet expert. Nous adoptons la même
démarche, mais en
la
simplifiant dans
la
mesure nous réduisons
la
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXXV, 1 à 4, 1999. C.I.P.L. - Université de Liège - Tous droits réservés.
POUR
LA
CONSULTATION
DE
BASE
DE
DONNÉES
EN
LANGUE
NATURELLE
129
participation de l'administrateur de la base au
minimum:
seule une
bonne connaissance de sa base de données lui est demandée.
Le
système
TEAM
est un exemple abouti de l'approche basée sur
une analyse syntaxique complète, suivie d'analyses sémantiques sur
les arbres obtenus. Toutes ces opérations sont réalisées dans
un
forma-
lisme du type logique du premier ordre. Or, une fois isolés les consti-
tuants sémantiques peltinents dans la question, il apparaît que les trois
quarts des nœuds de l'arbre syntaxique ne représentent que la «glue
syntaxique)} (Grosz et
al.
1987,
p.203)
de la phrase originelle,
et
n'apportent rien àl'interprétation.
Et
pourtant ces nœuds
ont
été pris
en compte dans toute la première phase d'analyse.
Un
autre exemple
axé sur la logique est décrit dans (Péquegnat
et
al.
1988):
cinq bases
de connaissances ysont constituées, représentations logiques des don-
nées linguistiques, conceptuelles (la base de données)
et
sémantiques.
Un système complet de réécriture est nécessaire pour chaque passage
d'une
représentation àune autre
...
Les traitements en sont alourdis
d'autant.
Nous
ne passons pas par toutes ces
étapes:
nous exploitons
une connaissance linguistique codée par les prédicats linguistiques, à
l'aide
de transducteurs.
Àla fin des années 80, le tour de la question de l'interrogation de
base de
dOl1nées
en langue naturelle semblait avoir été fait et la
recherche dans ce domaine
s'est
alors donné des buts plus
généraux:
le dialogue homme-machine,
d'une
part, l'approfondissement des
outils d'analyse du langage naturel, d'autre part. Les avancées
conjointes des outils linguistiques et infonnatiques pennettent, aujour-
d'hui,
d'aborder
la question autrement, de façon plus performante et
plus générale nous semble-t-il.
Dans la suite de cet article, nous présentons le système
TEAM
2)
et
le nôtre 3et §4). Puis nous décrirons trois exemples d'interroga-
tions plus élaborées, exemples repris du rapport sur
TEAM
5). Enfin,
nous conclurons
par
des perspectives de recherche
6).Comme nous
ne souhaitons pas créer un nouveau produit ad hoc, nous avons décidé
de mener parallèlement notre étude linguistique sur le français et
l'allemand. Nous présenterons en notes quelques explications sur la
partie allemande de notre travail.
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXXV, 1 à 4, 1999. C.I.P.L. - Université de Liège - Tous droits réservés.
130 Béatrice
BOUCHOU,
Denis
MAUREL,
Barbara
KALTZ
2.
Approches
par
prédicats
logiques:
le
système
TEAM
Le système
TEAM
est représentatifdes propositions
de
consultation de
base de données
en
langue naturelle formalisées àl'aide
de
la
logique.
Il représente pour nous
une
bonne base
de
comparaison dans
la
mesure
il
est décrit en détails dans (Grosz 1987).
2.1. Les grandes lignes du système
TEAM
Le
système
TEAM
aété développé par une équipe
de
1'«
Artificial
Intelligence Center, SRI International, Menlo Park, CA 94025,
USA
».
Il est présenté comme
le
résultat
de
quatre années de travaux,
effectués dans
le
but principal d'améliorer
la
«transportabilité» des
systèmes d'interrogation
de
bases
de
données
en
langue naturelle.
Le
principe essentiel adopté dans ce but est
de
concevoir un sys-
tème général, dans un premier temps, et
de
confier àun spécialiste de
la
base de données
le
soin
de
compléter
ce
système en fonction de
cette base, dans une phase d'installation.
2.2. Phase d'acquisition
Le
système
TEAM
propose une phase d'acquisition sophistiquée, à
travers une bonne interface graphique:
la
phase d'installation permet
de compléter plusieurs composants
du
système en fonction des élé-
ments de
la
base de données, décrits par l'administrateur de cette base.
Précisément, cette phase affecte les composants suivants:
-
le
lexique:
il
contient les pronoms, conjonctions, déterminants,
noms, adjectifs et verbes, etc. Dans
la
phase d'acquisition, ce lexi-
que est enrichi des noms
des
champs et de leurs valeurs, ainsi que
des mots communs désignant les fichiers. L'information associée à
chaque mot est d'ordre syntaxique (catégorie, sous-catégorie, mor-
phologie) et sémantique. L'information sémantique dépend de
la
catégorie syntaxique: ainsi les adjectifs et les verbes sont associés à
un prédicat logique présent dans
le
modèle conceptuel, auquel ils
font référence. Plus précisément, une correspondance est établie
entre les constituants syntaxiques de
la
phrase et les arguments
du
prédicat.
-Le schéma conceptuel:
il
représente les concepts
du
domaine de
la
base.
Il
est organisé selon une «hiérarchie
de
types» très proche
Extrait de la Revue Informatique et Statistique dans les Sciences humaines
XXXV, 1 à 4, 1999. C.I.P.L. - Université de Liège - Tous droits réservés.
POUR
LA
CONSULTATION
DE
RASE
DE
DONNÉES
EN
LANGUE
NATURELLE
l31
d'une organisation orientée objets. Chaque champ
de
la base est
associé aux objets de la hiérarchie du modèle conceptuel qui pour-
raient intervenir dans ce champ. Par ailleurs un ensemble de prédi-
cats permet d'associer chaque objet
du
schéma conceptuel àun
objet du schéma
de
la
base de donnée. Dans la phase d'acquisition
ce modèle est enrichi de noms, adjectifs, verbes, etc.
-Le schéma de la base de données:
il
est destiné à
la
traduction de
la fOilliule logique obtenue àpartir
de
la
question vers une requête à
la base de données (en langage
SODA).
Il contient quatre types
d'infom13tions,
la
définition des objets du schéma conceptuel en
termes
de
fichiers et
de
champs,
la
liste de synonymes pour chaque
objet, une représentation logique
de
la structure de
la
base, et
la
liste
des champs clefs des tables. C'est l'administrateur
de
la base de
données qui
va
indiquer toutes ces informations.
·r-----------------------------------------------------------------,
,,
,,
lestion
il
1,
,
~
Gmmm,;. _DIALOGlC ,
t'
DIAMOND ,
,,
,,
,,
bre
~-------------------J
,
,
ntaxique
,
Fonctions ,
f,
Lexique ,
sémantiques ,ACQUISITION
,
bre
1>
,
,
,
~
nnoté r-------------------------J
,Fonctions ,
,,
,
,pragmatiques
H--
,
,,Schéma conceptuel :
,,
,,
,
,(hiérarchie d'objets,
,Détennination ,
,,
,,
,de portée ,propriétés pragmatiques)
/'7
,,
,,
,,
nue
,,
~
___________________
l
.&ique
~
fTraduction
1---
Scbéma de la base de
quête en données, règles
de
ODA
correspondances
/7
qt
re
S
..
fo
10
ar
a
ar
sy
réponse
Figure 1:Lefonctionnement général de TEAM
1 / 23 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!