Voir le support de Vincent Boulet

publicité
Modélisation des métadonnées
et humanités numériques
Vincent Boulet
Bibliothèque nationale de France
Journée professionnelle FULBI 2016
22 janvier 2016
Il était une fois un bibliothécaire
•
Des données
structurées depuis 1373
•
Des données liées
vintage depuis 1987
•
Des identifiants sûrs
L E S C ATA L O G U E U R S
ET LES EXPERTS
Q UA LI TÉ
-
https://www.flickr.com/photos/bohman/4394901689
DES DONNÉES
INTELLIGENTES,
COHÉRENTES, LIÉES
ENTRE ELLES
Français 2700
Catalogue de la Bibliothèque du roi, 1373
Des données structurées depuis le XIVe siècle
Titre de l’oeuvre
Nbre de volumes
Français 2700
Catalogue de la Bibliothèque du roi, 1373
langue
Reliure
(matière)
Reliure
(relief,
empreintes)
Reliure
(fermoirs)
Des données structurées depuis le XIVe siècle
Il était une fois un
producteur/diffuseur/réutilisateur de
métadonnées…
« Toutes ces choses estans
ainsi disposées, il ne reste plus
pour l’accomplissement de ces
discours, qu’à sçavoir quel doit
estre leur fin et usage
principal : car de s’imaginer
qu’il faille apres tant de peine
et de despense cacher toutes
ces lumieres sous le boisseau,
et condamner tant de braves
esprits à un perpetuel silence
et solitude, c’est mal
recognoistre le but d’une
bibliotheque »
http://gallica.bnf.fr/ark:/12148/bpt6k574562
1k
http://data.bnf.fr/11917444/gabriel_naude/
Il était une fois un humaniste
numérique
Normalisation de
notices pour se les
échanger
Structuration de
données pour se les
partager
Un exemple : les notices d’autorité
Un exemple : les notices d’autorité
A quoi sert
une notice d’autorité?
• Identification de
manière univoque des
entités cataloguées : de
qui, de quoi parle-t-on?
• Explicitation de
l’implicite des notices
bibliographiques
Hugo, Victor
(1802-1885)
ISNI 0000 0001 2120 0982
Hugo, Victor
ISNI 0000 0000 0100 2666
Auteur de Sabor latino
9
Données existantes :
des liens, des autorités
et des identifiants
PERSONNE
Liens
Identifiants pérennes
Codes de relation
1xx
(créateur de)
EAD
INTERMARC
FRBNF11967514
INTERMARC
FRBNF11896956
OEUVRE
MANIFESTATION
0070
(auteur)
INTERMARC
FRBNF37465618
Les objectifs du contrôle d’autorité
(FRAD : functional requirements for authority data)
– trouver
• des informations sur les entités décrites par les données d’autorité
– identifier
• confirmer que l’entité trouvée correspond bien à la recherche
• distinguer entre des entités analogues
– contextualiser
• expliciter les relations entre les entités, ou entre une entité et un nom
(par exemple : nom d’alliance, pseudonyme…)
– justifier
• les choix du catalogueur (par exemple : justifier par une source une
forme rejetée)
Une notice d’autorité n’est pas une notice biographique mais fournit
des données « noyau », fondamentales, réutilisables pour des usages
différents
Importance des identifiants pérennes (ARK)
Importance des identifiants internationaux (ISNI)
12
Élargissement du rôle des autorités
référentiel pivot
• Identification non
centrée sur une
utilisation
bibliographique
– Univoque
– Pérenne
– => identifiants pérennes
Laboratoires de
recherche
Institutions
patrimoniales
Gestionnaires de
droits
Etc…
Des identifiants pivot
International
Standard
Mondial
Inter-domaine
IDs
Internationaux
Communités
spécifiqus
d’utilisateurs
Chercheurs
Institutions de
recherche
IDs locaux
(chaque
institution –
son ID
système,
en local)
International
CISAC
auteurs/comp
ositeurs
VIAF ID
(ARK ID)
Archives
(US+)
Bibliothèques
et +
DAI
IDs operant
au niveau
regional/
consortium
IPI
GND
Pays Bas
(Allemagne
DNB +
cooperative)
NACO
(LC +
cooperative)
IdRef
(ABES
Universités
françaises)
ARK ID
(fichiers
autorité)
z
Archives
Institutions
danoises
NACO
bibliothèque
s
membres
Allemagne
bibliothèques +
Bibliothèques
publiques
France
IPD
International
interprètes
Universités
françaises
bibliothèques
Editeurs
Gestion droits
(auteurs,
compositeurs)
E
X
E
M
P
L
E
S
Gestion droits
Gestion droits (interprètes)
(textes)
ISO 27729 International Standard Name Identifier
Identités publiques
pour
Personnes et collectivités
Permet d’identifier au niveau international « les individus et les organismes qui contribuent aux
œuvres de création, notamment les écrivains, artistes , créateurs, interprètes, chercheurs,
producteurs, éditeurs etc. »
e.g.: ISNI 0000 0001 2133 4104





Périmètre universel
Unique
Pérenne
Administré de manière centralisée
Exprimé comme une URI : http://isni.org/isni/0000000121334104
www.isni.org
Les métadonnées : un trésor sur le web
• Des données validées
– Créées par un professionnel de la
description de ressources
• Des données contextualisées
– Les informations sont précisées par une
source et une date
• Pérennité des accès et citations
– ARK, autres identifiants
– Généralement l’identifiant est envisagé
sur le très long terme
• Utilisateurs tiers
– Tradition d’une offre de services
– Désintéressement financier
Les défis
• Différentes
communautés
• Différents besoins
Défi n°1 : vers la sortie
LES DÉFIS DE LA MODÈLISATION DE
DONNÉES VUS DES BIBLIOTHÈQUES
1/ que peut-on donner?
Des données « noyau », neutralisées
VIAF
Un exemple d’utilisation de VIAF
Adaptables à divers contextes
+ Contexte
Archives
+ Contexte
Objet
Info
noyau
+ Contexte …
etc.
+ Contexte
Reliures
+ Contexte
Enluminures
+ Contexte
Médailles
+ Contexte
Archives sonores
+ Contexte
Manuscrits
21
François Ier (roi de France ; 1494-1547)
forme internationale français
Informations
« noyau »,
valables pour tout
contexte
Contexte
Reliures
ARK spécifique
Lien
22
2/ Comment expliciter
ce qu’on donne?
• Nouveau code de catalogage
• Ambition de prendre en
compte FRBR, FRAD et
enjeux du Web
• Pas seulement la
construction des noms mais
l’ensemble des données
d’autorité
• RDA comme référence
hors du monde des
bibliothèques
–Un code unique :
traite de toutes les
entités FRBR et de
leurs relations
–Entités du Groupe 2
FRBR (les Agents) en
font partie intégrante
FRBR redessine
le rôle des autorités
FRBR redessine
le rôle des autorités
Technologies du web sémantique
Héritage des bibliothèques
françaises
FRBR
/FRAD
RDA
Autres communautés culturelles et patrimoniales
Allier Boris Vian (1920-1959)
les concepts
Personne réelle et
identité publique
3/ Comment rendre compréhensible ce qu’on
donne?
sortir des silos et des formats spécialisés
Collections numérisées (3 M)
Des pages web
pour les humains
BnF Archives et manuscrits
Catalogue général (15,3 M)
Traitements automatiques :
alignements, regroupements
Des données structurées
pour les machines
1956
http://catalogue.bnf.fr/ark:/12148/cb38935131d
a pour
titre
Chansons
possibles et
impossibles
a pour
auteur
a pour
auteur
Le modèle RDF
http://catalogue.bnf.fr/ark:/12148/cb13091689x
nom
pseudonyme
Sullivan, Vernon (1920-1959)
http://catalogue.bnf.fr/ark:/12148/cb147208654
Le déserteur
Vian, Boris (1920-1959)
a pour auteur
http://catalogue.bnf.fr/ark:/12148/cb37471336j
a pour
titre
J'irai cracher sur vos tombes
Data mining à partir des données de la
BnF
Frédéric Glorieux, LABEX OBVIL (Paris
IV)
• Auteurs français, éléments de
démographie historique
(data.bnf.fr 2015-04)
• https://resultats.hypotheses.org/
author/resultats
• A partir du dump auteurs
personnes d’avril 2015
Data mining
Data mining
Data mining
« Mille viae ducunt homines per saecula Romam »
Alain de Lille / Alanus ab Insulis / Alanus van Ryssel
ISNI http://isni.org/isni/0000000118389323
Liber Parabolarum, 591 (1175)
Défis n°2 : chemins inverses
INTERCONNECTER LES DONNÉES
SPÉCIALISÉES AVEC LES
RÉFÉRENTIELS INTERNATIONAUX
Accélérer l’aller-retour
Bases IRHT
Autorités
contre
8000 noms
3000 trouvés à la BnF
900 trouvés dans VIAF hors BnF
Que faire des 4100 noms restants?
Mise en relation des données
Tours, Bibl. mun., ms. 0572
Déterminer une politique :
quel référentiel choisir?
– Ne pas opposer les
référentiels généralistes et
spécialisées
– Une articulation à trouver en
tenant compte de
l’intégration de la source /
des sources à l’écosystème
national et international
– S’assurer de la cohérence des
politiques source/usager
Vers un référentiel national
d’autorités ?
• Contours / Besoins visés
/ Dialogue technique ?
• Politique de qualité /
pratiques mises en
cohérence
Persée
DILA
Archives
nationales
ABES
ID-Ref
BnF
Déterminer une politique :
quelle modélisation choisir?
Téléchargement