Modélisation des métadonnées et humanités numériques Vincent Boulet Bibliothèque nationale de France Journée professionnelle FULBI 2016 22 janvier 2016 Il était une fois un bibliothécaire • Des données structurées depuis 1373 • Des données liées vintage depuis 1987 • Des identifiants sûrs L E S C ATA L O G U E U R S ET LES EXPERTS Q UA LI TÉ - https://www.flickr.com/photos/bohman/4394901689 DES DONNÉES INTELLIGENTES, COHÉRENTES, LIÉES ENTRE ELLES Français 2700 Catalogue de la Bibliothèque du roi, 1373 Des données structurées depuis le XIVe siècle Titre de l’oeuvre Nbre de volumes Français 2700 Catalogue de la Bibliothèque du roi, 1373 langue Reliure (matière) Reliure (relief, empreintes) Reliure (fermoirs) Des données structurées depuis le XIVe siècle Il était une fois un producteur/diffuseur/réutilisateur de métadonnées… « Toutes ces choses estans ainsi disposées, il ne reste plus pour l’accomplissement de ces discours, qu’à sçavoir quel doit estre leur fin et usage principal : car de s’imaginer qu’il faille apres tant de peine et de despense cacher toutes ces lumieres sous le boisseau, et condamner tant de braves esprits à un perpetuel silence et solitude, c’est mal recognoistre le but d’une bibliotheque » http://gallica.bnf.fr/ark:/12148/bpt6k574562 1k http://data.bnf.fr/11917444/gabriel_naude/ Il était une fois un humaniste numérique Normalisation de notices pour se les échanger Structuration de données pour se les partager Un exemple : les notices d’autorité Un exemple : les notices d’autorité A quoi sert une notice d’autorité? • Identification de manière univoque des entités cataloguées : de qui, de quoi parle-t-on? • Explicitation de l’implicite des notices bibliographiques Hugo, Victor (1802-1885) ISNI 0000 0001 2120 0982 Hugo, Victor ISNI 0000 0000 0100 2666 Auteur de Sabor latino 9 Données existantes : des liens, des autorités et des identifiants PERSONNE Liens Identifiants pérennes Codes de relation 1xx (créateur de) EAD INTERMARC FRBNF11967514 INTERMARC FRBNF11896956 OEUVRE MANIFESTATION 0070 (auteur) INTERMARC FRBNF37465618 Les objectifs du contrôle d’autorité (FRAD : functional requirements for authority data) – trouver • des informations sur les entités décrites par les données d’autorité – identifier • confirmer que l’entité trouvée correspond bien à la recherche • distinguer entre des entités analogues – contextualiser • expliciter les relations entre les entités, ou entre une entité et un nom (par exemple : nom d’alliance, pseudonyme…) – justifier • les choix du catalogueur (par exemple : justifier par une source une forme rejetée) Une notice d’autorité n’est pas une notice biographique mais fournit des données « noyau », fondamentales, réutilisables pour des usages différents Importance des identifiants pérennes (ARK) Importance des identifiants internationaux (ISNI) 12 Élargissement du rôle des autorités référentiel pivot • Identification non centrée sur une utilisation bibliographique – Univoque – Pérenne – => identifiants pérennes Laboratoires de recherche Institutions patrimoniales Gestionnaires de droits Etc… Des identifiants pivot International Standard Mondial Inter-domaine IDs Internationaux Communités spécifiqus d’utilisateurs Chercheurs Institutions de recherche IDs locaux (chaque institution – son ID système, en local) International CISAC auteurs/comp ositeurs VIAF ID (ARK ID) Archives (US+) Bibliothèques et + DAI IDs operant au niveau regional/ consortium IPI GND Pays Bas (Allemagne DNB + cooperative) NACO (LC + cooperative) IdRef (ABES Universités françaises) ARK ID (fichiers autorité) z Archives Institutions danoises NACO bibliothèque s membres Allemagne bibliothèques + Bibliothèques publiques France IPD International interprètes Universités françaises bibliothèques Editeurs Gestion droits (auteurs, compositeurs) E X E M P L E S Gestion droits Gestion droits (interprètes) (textes) ISO 27729 International Standard Name Identifier Identités publiques pour Personnes et collectivités Permet d’identifier au niveau international « les individus et les organismes qui contribuent aux œuvres de création, notamment les écrivains, artistes , créateurs, interprètes, chercheurs, producteurs, éditeurs etc. » e.g.: ISNI 0000 0001 2133 4104 Périmètre universel Unique Pérenne Administré de manière centralisée Exprimé comme une URI : http://isni.org/isni/0000000121334104 www.isni.org Les métadonnées : un trésor sur le web • Des données validées – Créées par un professionnel de la description de ressources • Des données contextualisées – Les informations sont précisées par une source et une date • Pérennité des accès et citations – ARK, autres identifiants – Généralement l’identifiant est envisagé sur le très long terme • Utilisateurs tiers – Tradition d’une offre de services – Désintéressement financier Les défis • Différentes communautés • Différents besoins Défi n°1 : vers la sortie LES DÉFIS DE LA MODÈLISATION DE DONNÉES VUS DES BIBLIOTHÈQUES 1/ que peut-on donner? Des données « noyau », neutralisées VIAF Un exemple d’utilisation de VIAF Adaptables à divers contextes + Contexte Archives + Contexte Objet Info noyau + Contexte … etc. + Contexte Reliures + Contexte Enluminures + Contexte Médailles + Contexte Archives sonores + Contexte Manuscrits 21 François Ier (roi de France ; 1494-1547) forme internationale français Informations « noyau », valables pour tout contexte Contexte Reliures ARK spécifique Lien 22 2/ Comment expliciter ce qu’on donne? • Nouveau code de catalogage • Ambition de prendre en compte FRBR, FRAD et enjeux du Web • Pas seulement la construction des noms mais l’ensemble des données d’autorité • RDA comme référence hors du monde des bibliothèques –Un code unique : traite de toutes les entités FRBR et de leurs relations –Entités du Groupe 2 FRBR (les Agents) en font partie intégrante FRBR redessine le rôle des autorités FRBR redessine le rôle des autorités Technologies du web sémantique Héritage des bibliothèques françaises FRBR /FRAD RDA Autres communautés culturelles et patrimoniales Allier Boris Vian (1920-1959) les concepts Personne réelle et identité publique 3/ Comment rendre compréhensible ce qu’on donne? sortir des silos et des formats spécialisés Collections numérisées (3 M) Des pages web pour les humains BnF Archives et manuscrits Catalogue général (15,3 M) Traitements automatiques : alignements, regroupements Des données structurées pour les machines 1956 http://catalogue.bnf.fr/ark:/12148/cb38935131d a pour titre Chansons possibles et impossibles a pour auteur a pour auteur Le modèle RDF http://catalogue.bnf.fr/ark:/12148/cb13091689x nom pseudonyme Sullivan, Vernon (1920-1959) http://catalogue.bnf.fr/ark:/12148/cb147208654 Le déserteur Vian, Boris (1920-1959) a pour auteur http://catalogue.bnf.fr/ark:/12148/cb37471336j a pour titre J'irai cracher sur vos tombes Data mining à partir des données de la BnF Frédéric Glorieux, LABEX OBVIL (Paris IV) • Auteurs français, éléments de démographie historique (data.bnf.fr 2015-04) • https://resultats.hypotheses.org/ author/resultats • A partir du dump auteurs personnes d’avril 2015 Data mining Data mining Data mining « Mille viae ducunt homines per saecula Romam » Alain de Lille / Alanus ab Insulis / Alanus van Ryssel ISNI http://isni.org/isni/0000000118389323 Liber Parabolarum, 591 (1175) Défis n°2 : chemins inverses INTERCONNECTER LES DONNÉES SPÉCIALISÉES AVEC LES RÉFÉRENTIELS INTERNATIONAUX Accélérer l’aller-retour Bases IRHT Autorités contre 8000 noms 3000 trouvés à la BnF 900 trouvés dans VIAF hors BnF Que faire des 4100 noms restants? Mise en relation des données Tours, Bibl. mun., ms. 0572 Déterminer une politique : quel référentiel choisir? – Ne pas opposer les référentiels généralistes et spécialisées – Une articulation à trouver en tenant compte de l’intégration de la source / des sources à l’écosystème national et international – S’assurer de la cohérence des politiques source/usager Vers un référentiel national d’autorités ? • Contours / Besoins visés / Dialogue technique ? • Politique de qualité / pratiques mises en cohérence Persée DILA Archives nationales ABES ID-Ref BnF Déterminer une politique : quelle modélisation choisir?