Séminaire technique services à valeurs ajoutées

publicité
SÉMINAIRE TECHNIQUE
SERVICES À VALEURS AJOUTÉES
NANCY 18-19 MARS 2015
Jean-Marie Pierrel – Université de Lorraine
OBJECTIFS DES
SERVICES À VALEURS AJOUTÉES
Définir des services à valeurs ajoutées sur la
plateforme ISTEX par l’exploitation du plein texte.
 Créer une dynamique de
recherche/développement autour de la plateforme
ISTEX qui puisse servir de déclencheur à des activités
plus larges d’appropriation par les chercheurs des
contenus d’ISTEX pour développer des recherches de
Text and Data Mining (TDM) de qualité.

Mise en place de projets en
partenariats avec des équipes de
recherche
2
POUR QUELS USAGES ?

Interrogation en texte intégral


Production de synthèses documentaires



par analyse de sous corpus individualisés pour l’occasion,
et auxquels sont appliqués des méthodes de text mining.
Représentation et visualisation de données


sur les objets numériques indexés dans leur totalité.
basées sur des technologies de cartographie de la
connaissance.
Production de corpus terminologiques
Utilisation à des fins de recherche

Par exemple en ingénierie de la langue, génomique,
histoire des sciences.
3
EXEMPLES
D’EXPLOITATIONS VISÉES

Sélection d’un sous corpus d’articles






Caractérisation de l’évolution des recherches ou
connaissances



citant tel auteur, tel article
s’appuyant sur les travaux menés par telle équipe,
issus de travaux de tel projet (projet Européen, projet ANR, …),
s’appuyant sur telle donnée (ou exploitant tel corpus)
Traitant de telle langue, de tel espace géographique, exploitant telle
molécule, etc.
dans un domaine particulier
au cours d’une période temporelle donnée.
Ré-indexation terminologique d’articles scientifiques


un nouveau concept n’est pas détectable dans les mots clés proposés au sein
des métadonnées, mais uniquement par l’analyse du plein texte.
Exemples : « actif toxique », « nuage informatique » ou « Cloud computing »,
etc. ), de plus un concept peut s’exprimer de diverses façons en langue.
4
OBJECTIFS
DE CE SÉMINAIRE TECHNIQUE
Faire le point sur les projets initiés au cours des 2
dernières années
 Permettre aux différents contributeurs de prendre
connaissance de l’ensemble des projets en cours
 Assurer un concertation entre les divers projets



Créer un écosystème de développement autour de la
plateforme ISTEX
Préparer une seconde phase pour ces projets
5
TROIS GRANDS TYPES DE
PROJETS

Définition de services de base d’exploitation du plein texte
Recherche de termes et de leurs variantes
 Détection des entités nommées
 Balisage des principaux champs des références
bibliographiques


Services à valeurs ajoutées
Moteur de réponse offrant des outils de classification
automatique : projet CILLEX
 Caractérisation de l’évolution des recherches et des
connaissances dans le temps grâce à la construction de cartes
diachroniques : Projet ISTEX-R
 Bibliothèque open source de composants Xml d’exploitation du
corpus ISTEX : Projet LorExplor


Intégration d’ISTEX dans les systèmes numériques des
établissements
6
SERVICES DE BASE
D’EXPLOITATION DU PLEIN TEXTE


Mise en place de partenariats INIST /Equipes de recherche
Recherche de termes et de leurs variantes


Détection des entités nommées


Equipe de recherche impliquée :
LINA de Nantes (Béatrice Daille)
Equipe de recherche impliquée :
Laboratoire d’informatique de Tours (Denis Maurel)
Balisage des principaux champs des références
bibliographiques

Projet pris en charge par l’équipe R&D de l’INIST
7
PROJET CILLEX



Moteur de réponse offrant des outils de classification
automatique
Equipe de recherche impliquée :
CLLE/IRIT Toulouse (Bruno Gaume)
Objectifs :
Compte tenu du volume de données les résultats de requêtes
pourront correspondre à des collections très importantes de
documents qui devront être classifiées.
 développer des outils de métrologie, fondées sur les structures
de réseaux petits mondes omniprésentes dans les bases
documentaires, pour mieux identifier l’information
pertinente

8
PROJET ISTEX-R



Caractérisation de l’évolution des recherches et des
connaissances dans le temps grâce à la construction de
cartes diachroniques.
Equipes de recherche impliquées :
LORIA, ATILF, INIST (Yannick Toussaint)
Objectif
créer des outils d’accès pour construire et capitaliser des
connaissances sur un domaine scientifique
 analyse du contenu pour caractériser l’évolution des
recherches et des connaissances dans le temps.
 Créer une dynamique locale de recherche/développement
autour de la plateforme ISTEX

9
PROJET LOREXPLOR



Bibliothèque open source de composants Xml d’exploitation
du corpus ISTEX.
Equipe de recherche impliquée :
Université de Lorraine (Jacques Ducloy)
Objectif
constituer une bibliothèque open source de composants Xml
pour construire des systèmes de recherche, des serveurs
d'exploration de corpus et des chaînes de curation de données
 faciliter la construction, en quelques jours pour des
documentalistes, de plateformes intermédiaires (régionales,
thématiques ou institutionnelles) analysant de 100.000 à 1.000.000
documents pour répondre à des besoins spécifiques


Par exemple : Identification des acteurs d'une thématique scientifique pour
l'aide au pilotage scientifique
10
ISTEX-SNU


Equipe impliquée : Université de Lorraine
Objectif : permettre une intégration optimale d’ISTEX en
complément des offres déjà existantes



Environnement Numérique de Travail (ENT)
Discovery Tool (DT)
Les fonctionnalités proposée sont :
 Recherche sur métadonnées et plein texte avec affinage par
facettes
 Accès transparent (authentification) au plein texte en un
minimum de clics
 Interface utilisateur ergonomique et intégrée aux services
cibles
 Installation technique simple et documentée privilégiant
l’automatisation
11
L’AVENIR POUR CES PROJETS
Une première prolongation jusque fin avril 2016
(acquise), une seconde demande de prolongation
du projet ISTEX jusque 31/08/2017
 Un effort supplémentaire en discussion sur le
prétraitement et normalisation des données
textuelles
 Un abondement financier prévu sur les projets à
valeurs ajoutées




Services de base
Services à valeurs ajoutées
La mise en place de chantiers thématiques d’usage
12
CHANTIERS THÉMATIQUES
D’USAGE
Mise en place chantiers thématiques d’usage des
corpus d’ISTEX
 Appel à propositions validé par le COMEX ISTEX

Objectif : sélectionner 8 à 10 projets sur 1 an
 Ici les corpus ISTEX doivent être vus comme des données
de base de recherches de type fouille de texte ou «data
mining».


Interactions souhaitées avec les projets « service à
valeurs ajoutées »
usage des résultats acquis par les projets actuels
 Exploitation souhaité de la bibliothèque open source de
composants Xml développés dans LorExplor.

13
QUESTIONS
http://www.istex.fr
http://api.istex.fr/documentation
[email protected]
@istexdev
Merci de votre attention.
14
Téléchargement