Titre du projet : MONOFACE, Interface Unifiée d`Accès aux Données

publicité
Titre du projet : MONOFACE, Interface Unifiée d’Accès aux Données en
Langage Naturel.
Année : 2015/2016
Nature du financement : soutien à la recherche technologique
Contexte général : ce projet s’inscrit dans le contexte général des données qui
abondent ces dernières années. Le volume des données mondiales double tous les
24 mois. Les sources de données sont diverses. Au fur et à mesure que ces données
s’entassent des problèmes se posent au niveau de l’exploitation des ces données.
Les moteurs de recherche classiques n’ont pas nécessairement accès à toutes ces
données (deep web). Dans un domaine restreint, une interface en langage naturel
peut faciliter l’accès à l’information.
Valorisation des résultats : e-commerce, recherche d’information dans les
entreprises, organisations, administrations ou moteurs de recherche spécialisés.
Principaux composants TAL du projet MONOFACE
Le projet MONOFACE développe des composants linguistiques qui interviennent
dans la chaine de traitement de la question :
-étiqueteur : ce composant permet d’identifier les unités lexicales (mots, locutions ou
expressions figées), de désambigüiser les catégories grammaticales, de préserver la
cohésion du groupe nominal, de servir de base à l’analyse syntaxique et de contrôler
cette phase.
-analyseur syntaxique de surface : La phase d’analyse syntaxique ne consiste pas à
faire une structure syntaxique complexe. Elle consiste à bien former les principaux
syntagmes : nominal, verbal (le verbe et ses modificateurs), adjectival et adverbial.
L’étiqueteur et l’analyseur syntaxique se basent sur l’approche micro-systémique
(développée au Centre Tesnière).
-générateur de forme logique : à partir de l’analyse syntaxique, ce générateur établit
une représentation logique de la question indépendante de la langue.
-générateurs de requêtes formelles : ce composant traduit la question dans un
formalisme qui est compréhensible par l’entrepôt de données. Il peut en avoir
plusieurs.
-ressources linguistiques : les ressources linguistiques sont utilisées par les différents
composants pour leur fonctionnement.
Téléchargement