SUDOC : Parcours FRBR 3 : Le format RDF et la FRBRisation

publicité
Parcours FRBR
3 : format RDF et FRBRisation
Le « J.e-cours » va bientôt commencer, merci de votre patience……
Merci de désactiver votre micro :
- Repérer votre nom dans la liste (« moi »)
- Cliquer sur l’icône « Silence »
Parcours FRBR
• Partie 1. LES PRINCIPES GÉNÉRAUX
• Partie 2. DES CATALOGUES FRBRisés
• Partie 3. FORMAT RDF et FRBRisation
Vos formateurs :




Philippe Le Pape
Olivier Rousseaux
Michaël Jeulin
Laurent Piquemal
(10/10/2013)
(07/11/2013)
(19/12/2013)
PARTIE 3.
FORMAT RDF ET
FRBRISATION
Support élaboré à partir des travaux du groupe national de formateurs RDA
PLAN
• Le rapport entre format RDF et FRBRisation
• Le format RDF
• Les données du Sudoc en RDF
LE RAPPORT ENTRE FORMAT RDF ET
FRBRISATION
Rappel : les enjeux de la FRBRisation
• Mieux représenter les résultats de recherche
de nos catalogues, y compris sur le web
• Modifier la granularité de la description
bibliographique : la donnée, plutôt que la
notice
Pour que cela soit possible : il faut libérer la
donnée du carcan de la notice
Enjeu 1 : mieux présenter les résultats
Une notice bibliographique est structurée par
un format spécifique (MARC) :
200 1#$aL’@origine des espèces par le moyen de la sélection naturelle
$bTexte imprimé$fCharles Darwin
700 #1$aDarwin$bCharles$f1809-1882$4070
Structure d’une base de données classique :
Champ : valeur du champ
200 : a pour titre <valeur>
700 : a pour auteur <valeur>
Enjeu 1 : mieux présenter les résultats
Tout logiciel bibliographique programmé pour ça
saura reconnaître et identifier cette structure.
Enjeu 1 : mieux présenter les résultats
Mais un moteur de recherche NE SAIT PAS
interpréter cette structure MARC
La notice reste
indéchiffrable
Enjeu 1 : mieux présenter les résultats
Pour que la structure de nos données soit
comprise par les moteurs de recherche, il faut la
TRADUIRE dans la structure des données sur le
web.
Enjeu 2 : changer la granularité
Volonté d’offrir aux usagers du web une
description à la granularité plus fine.
Permet de choisir le niveau d’information
pertinent :
- infos sur l’œuvre, pour une recherche
- infos sur l’item, pour un emprunt
Enjeu 2 : changer la granularité
TITRE
NOTICE
EDITEUR
COTE
TITRE
EDITEUR
NOTICE
COTE
TITRE
NOTICE
EDITEUR
COTE
Enjeu 2 : changer la granularité
Requêtes spécifiques = résultats spécifiques
COTE
TITRE
EDITEUR
EDITEUR
COTE
Œuvres de Darwin ?
TITRE
TITRE
TITRE
TITRE
Versions originales?
TITRE
EDITEUR
EDITEUR
EDITEUR
COTE
Disponibilité ?
TITRE
COTE
COTE
RDF convient à la FRBIsation
ENJEU FRBR 1 :
données visibles sur le web
BESOIN :
format de données interprétables
par des machines
ENJEU FRBR 2 :
donnée comme granularité de la description
BESOIN :
nouvelle structuration des données qui
conserve les liens
Convient, car :
-Basé sur un langage XML interprétable par des machines
-Structuré pour rendre compte de liens « typés »
LE FORMAT RDF
Du Web de documents au web de
données
• Le Web dans les années 90 : des urls et des liens hypertextes
(http) pour « naviguer » entre des pages et des fichiers : un
web de documents
• Les moteurs de recherche indexent les pages, mais mal leur
contenu.
– En particulier les bases de données, parmi lesquelles les
catalogues.
• Emergence du web de données à partir des années 2000
• Il s’agit de s’appuyer sur la technologie du web traditionnel
pour représenter les données elles-mêmes
RDF
(Resource Description Framework)
• Proposé en 1999 par le W3C
• RDF est un modèle conceptuel qui s’appuie sur
l’architecture du web
• Il permet d’encoder des données pour qu’une
machine puisse les traiter et les analyser
• Un langage logique qui décrit, représente et
relie des données à échanger sur le Web.
Un langage pour les machines
Une grammaire
RDF + HTTP + URIs
Des vocabulaires
RDFS / OWL
ontologies
Des règles d’écriture
RDF/XML, N3, Turtle, RDFa
Des moyens de
communication
SPARQL
protocoles
Principe de base du RDF
• Toute chose ou ressource peut être décrite
avec des phrases minimales composées :
- d’un verbe
- d’un sujet
- et d’un complément
• Les URI servent à identifier ces ressources
=> c.à.d. en pratique, une URL
Exemple
Darwin a écrit « L’origine des espèces »
Sujet : Charles Darwin
Verbe : a écrit
Complément : « L’origine des espèces »
Les 3 éléments sujet – prédicat – objet
constituent un TRIPLET
Sujet
Prédicat
Objet
RDF : une syntaxe
sujet
objet
prédicat
L’OBJET peut être
Le SUJET est
toujours une URI.
Le PRÉDICAT est
toujours une URI.
Toute « chose » sur
laquelle on veut faire
des assertions (SUJET)
doit avoir une URI.
Les « choses » ont
toujours un type :
une CLASSE.
Il permet d’exprimer
les PROPRIÉTÉS des
« choses », ou
les RELATIONS des
« choses » entre elles.
un texte (LITTÉRAL)
ou une URI.
Les CLASSES et les PROPRIÉTÉS
sont déclarées dans des
VOCABULAIRES (ou
« ONTOLOGIES »)
pour être réutilisées.
Pour un humain :
Traduction en RDF
Sujet : « L’origine des espèces »
Verbe : a pour auteur
Complément : Charles Darwin
Sujet
Prédicat
Objet
Pour un logiciel de bibliothèque :
Sujet : PPN 021050384 (par ex.)
Sujet
(titre contenu dans le 200$a)
Verbe : 700 #1$3026812304$4070
Complément : $3026812304
Prédicat
Objet
(PPN 026812304 = autorité de Charles Darwin)
Pour n’importe quelle machine :
Sujet : http://www.sudoc.fr/021050384/id
Verbe : http://id.loc.gov/vocabulary/relators/aut
Sujet
Prédicat
(ou marcrel:aut)
Complément : http://www.idref.fr/026812304/id Objet
(et pour le titre : dc:title « L’origine… »)
La notion de graphe
• Chaque ressource représentée par une URI
peut faire l’objet de nouvelles assertions
‖
devenir le sujet de nouveaux triplets
• L’ensemble des triplets, reliés les uns aux
autres par les URI qu’ils ont en commun,
constitue un graphe
Exemple de graphe
est
contemporain de
est une
a créé
est né en
est né en
est né à
est conservée à
1840
est né à
représente
1850
est mort en
est mort à
est un
est situé à
LES DONNÉES DU SUDOC EN RDF
La première brique: identifier
• Des URL pérennes pour les ressources
– Sudoc : http://www.sudoc.fr/053911512
Construite sur le PPN de la notice
– Idref : http://idref.fr/026927608
Construite sur le PPN de la notice
• Des sitemaps pour parcourir les notices
• Permet aux moteurs de recherche d’identifier
des ressources
L’exposition du Sudoc
• Exposition des données depuis juillet 2011
• Deux sorties :
– Du Schéma.org en html
• Données minimales promues par les principaux
moteurs : concession aux moteurs de recherche
– Page en RDF/XML
• Générée « à la volée » : pas (encore) de base de
données en RDF
• Conversion encore partielle
Exemple
En RDF/XML, ça donne quoi ?
Données relatives à la notice
Données relatives
au document (Book)
Auteurs (liens IdRef)
Accès :
http://www.sudoc.fr/127064583.rdf
Ce qu’on pourrait voir en plus dans un Sudoc FRBRisé
http://www.sudoc.fr/… :
URI Oeuvre
rdafrbr1:workManifested
(œuvre manifestée = raccourci
RDA)
frbrer:P2001 : is realized through
ou (RDA) rdabrbr1:expressionOfWork
Autre
expression de
la même
oeuvre
http://www.sudoc.fr/… :
URI Expression
frbrer:P1023 : is embodied in
ou (RDA) rdabrbr1:expressionManifested
http://www.sudoc.fr/021050384/id
(≈ Manifestation)
frbrer:P2005 : is exemplified by ou (RDA)
rdafrbr1:manifestationExemplified
URI Item
URI Item
Autre
manifestation
de la même
expression
Un début de FRBRisation :
exemple d’une thèse
NNT
Un essai de moissonnage du Sudoc :
Sindice
• Agrégateur de contenu RDF
– Au départ projet universitaire : National University of Ireland (Galway), DERI (Digital
Enterprise Research Institute, Irlande), Fondazione Bruno Kessler (Italie) et Openlink
Software (USA).
• Moissonne les notices du Sudoc depuis 2011
• Depuis novembre 2012 récupère les « dumps »
 La totalité du Sudoc est interrogeable en SPARQL
• Interface de recherche par formulaire
• Sparql endpoint (Virtuoso) : http://sparql.sindice.com/
 permet d’interroger les données en RDF et de les exporter
Sindice
Exemple de requête SPARQL : récupérer des ppn à partir d’un titre
Résultat
DU RDF partout à l’Abes…
• Dans Theses.fr
• Dans Calames
Moissonnés par le portail Isidore
• Le hub de métadonnées
RDF comme pivot pour stocker tous les formats
• Le projet de recherche Qualinca (en cours)
Travail sur la qualité des liens entre notices
bibliographiques et d’autorités
Algorithmes basés sur une modélisation en RDF
(ontologie FRBRoo)
EN RÉSUMÉ
• L’exposition des données est un enjeu de la FRBRisation
• Le RDF est pour cela privilégié car :
– C’est un standard officiel et libre du web
– Il est souple et ouvert
• Aujourd’hui :
– Les modèles sont encore balbutiants
– la FRBRisation de l’existant reste problématique, En RDF
comme en Marc
• Demain :
– Vers des modèles de données plus riches et mieux
structurés
– Du FRBR, enrichi : FRBRoo ?
– Un jour, du RDF en production ?
Se former à FRBR
Demandez à votre CFCB ou établissement l’organisation d’une
formation labelisée « Groupe RDA en France ».
Coordonnées des formateurs sur la page « Se former »
Téléchargement