SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES NANCY 18-19 MARS 2015 Jean-Marie Pierrel – Université de Lorraine OBJECTIFS DES SERVICES À VALEURS AJOUTÉES Définir des services à valeurs ajoutées sur la plateforme ISTEX par l’exploitation du plein texte. Créer une dynamique de recherche/développement autour de la plateforme ISTEX qui puisse servir de déclencheur à des activités plus larges d’appropriation par les chercheurs des contenus d’ISTEX pour développer des recherches de Text and Data Mining (TDM) de qualité. Mise en place de projets en partenariats avec des équipes de recherche 2 POUR QUELS USAGES ? Interrogation en texte intégral Production de synthèses documentaires par analyse de sous corpus individualisés pour l’occasion, et auxquels sont appliqués des méthodes de text mining. Représentation et visualisation de données sur les objets numériques indexés dans leur totalité. basées sur des technologies de cartographie de la connaissance. Production de corpus terminologiques Utilisation à des fins de recherche Par exemple en ingénierie de la langue, génomique, histoire des sciences. 3 EXEMPLES D’EXPLOITATIONS VISÉES Sélection d’un sous corpus d’articles Caractérisation de l’évolution des recherches ou connaissances citant tel auteur, tel article s’appuyant sur les travaux menés par telle équipe, issus de travaux de tel projet (projet Européen, projet ANR, …), s’appuyant sur telle donnée (ou exploitant tel corpus) Traitant de telle langue, de tel espace géographique, exploitant telle molécule, etc. dans un domaine particulier au cours d’une période temporelle donnée. Ré-indexation terminologique d’articles scientifiques un nouveau concept n’est pas détectable dans les mots clés proposés au sein des métadonnées, mais uniquement par l’analyse du plein texte. Exemples : « actif toxique », « nuage informatique » ou « Cloud computing », etc. ), de plus un concept peut s’exprimer de diverses façons en langue. 4 OBJECTIFS DE CE SÉMINAIRE TECHNIQUE Faire le point sur les projets initiés au cours des 2 dernières années Permettre aux différents contributeurs de prendre connaissance de l’ensemble des projets en cours Assurer un concertation entre les divers projets Créer un écosystème de développement autour de la plateforme ISTEX Préparer une seconde phase pour ces projets 5 TROIS GRANDS TYPES DE PROJETS Définition de services de base d’exploitation du plein texte Recherche de termes et de leurs variantes Détection des entités nommées Balisage des principaux champs des références bibliographiques Services à valeurs ajoutées Moteur de réponse offrant des outils de classification automatique : projet CILLEX Caractérisation de l’évolution des recherches et des connaissances dans le temps grâce à la construction de cartes diachroniques : Projet ISTEX-R Bibliothèque open source de composants Xml d’exploitation du corpus ISTEX : Projet LorExplor Intégration d’ISTEX dans les systèmes numériques des établissements 6 SERVICES DE BASE D’EXPLOITATION DU PLEIN TEXTE Mise en place de partenariats INIST /Equipes de recherche Recherche de termes et de leurs variantes Détection des entités nommées Equipe de recherche impliquée : LINA de Nantes (Béatrice Daille) Equipe de recherche impliquée : Laboratoire d’informatique de Tours (Denis Maurel) Balisage des principaux champs des références bibliographiques Projet pris en charge par l’équipe R&D de l’INIST 7 PROJET CILLEX Moteur de réponse offrant des outils de classification automatique Equipe de recherche impliquée : CLLE/IRIT Toulouse (Bruno Gaume) Objectifs : Compte tenu du volume de données les résultats de requêtes pourront correspondre à des collections très importantes de documents qui devront être classifiées. développer des outils de métrologie, fondées sur les structures de réseaux petits mondes omniprésentes dans les bases documentaires, pour mieux identifier l’information pertinente 8 PROJET ISTEX-R Caractérisation de l’évolution des recherches et des connaissances dans le temps grâce à la construction de cartes diachroniques. Equipes de recherche impliquées : LORIA, ATILF, INIST (Yannick Toussaint) Objectif créer des outils d’accès pour construire et capitaliser des connaissances sur un domaine scientifique analyse du contenu pour caractériser l’évolution des recherches et des connaissances dans le temps. Créer une dynamique locale de recherche/développement autour de la plateforme ISTEX 9 PROJET LOREXPLOR Bibliothèque open source de composants Xml d’exploitation du corpus ISTEX. Equipe de recherche impliquée : Université de Lorraine (Jacques Ducloy) Objectif constituer une bibliothèque open source de composants Xml pour construire des systèmes de recherche, des serveurs d'exploration de corpus et des chaînes de curation de données faciliter la construction, en quelques jours pour des documentalistes, de plateformes intermédiaires (régionales, thématiques ou institutionnelles) analysant de 100.000 à 1.000.000 documents pour répondre à des besoins spécifiques Par exemple : Identification des acteurs d'une thématique scientifique pour l'aide au pilotage scientifique 10 ISTEX-SNU Equipe impliquée : Université de Lorraine Objectif : permettre une intégration optimale d’ISTEX en complément des offres déjà existantes Environnement Numérique de Travail (ENT) Discovery Tool (DT) Les fonctionnalités proposée sont : Recherche sur métadonnées et plein texte avec affinage par facettes Accès transparent (authentification) au plein texte en un minimum de clics Interface utilisateur ergonomique et intégrée aux services cibles Installation technique simple et documentée privilégiant l’automatisation 11 L’AVENIR POUR CES PROJETS Une première prolongation jusque fin avril 2016 (acquise), une seconde demande de prolongation du projet ISTEX jusque 31/08/2017 Un effort supplémentaire en discussion sur le prétraitement et normalisation des données textuelles Un abondement financier prévu sur les projets à valeurs ajoutées Services de base Services à valeurs ajoutées La mise en place de chantiers thématiques d’usage 12 CHANTIERS THÉMATIQUES D’USAGE Mise en place chantiers thématiques d’usage des corpus d’ISTEX Appel à propositions validé par le COMEX ISTEX Objectif : sélectionner 8 à 10 projets sur 1 an Ici les corpus ISTEX doivent être vus comme des données de base de recherches de type fouille de texte ou «data mining». Interactions souhaitées avec les projets « service à valeurs ajoutées » usage des résultats acquis par les projets actuels Exploitation souhaité de la bibliothèque open source de composants Xml développés dans LorExplor. 13 QUESTIONS http://www.istex.fr http://api.istex.fr/documentation [email protected] @istexdev Merci de votre attention. 14