Parcours FRBR 3 : format RDF et FRBRisation Le « J.e-cours » va bientôt commencer, merci de votre patience…… Merci de désactiver votre micro : - Repérer votre nom dans la liste (« moi ») - Cliquer sur l’icône « Silence » Parcours FRBR • Partie 1. LES PRINCIPES GÉNÉRAUX • Partie 2. DES CATALOGUES FRBRisés • Partie 3. FORMAT RDF et FRBRisation Vos formateurs : Philippe Le Pape Olivier Rousseaux Michaël Jeulin Laurent Piquemal (10/10/2013) (07/11/2013) (19/12/2013) PARTIE 3. FORMAT RDF ET FRBRISATION Support élaboré à partir des travaux du groupe national de formateurs RDA PLAN • Le rapport entre format RDF et FRBRisation • Le format RDF • Les données du Sudoc en RDF LE RAPPORT ENTRE FORMAT RDF ET FRBRISATION Rappel : les enjeux de la FRBRisation • Mieux représenter les résultats de recherche de nos catalogues, y compris sur le web • Modifier la granularité de la description bibliographique : la donnée, plutôt que la notice Pour que cela soit possible : il faut libérer la donnée du carcan de la notice Enjeu 1 : mieux présenter les résultats Une notice bibliographique est structurée par un format spécifique (MARC) : 200 1#$aL’@origine des espèces par le moyen de la sélection naturelle $bTexte imprimé$fCharles Darwin 700 #1$aDarwin$bCharles$f1809-1882$4070 Structure d’une base de données classique : Champ : valeur du champ 200 : a pour titre <valeur> 700 : a pour auteur <valeur> Enjeu 1 : mieux présenter les résultats Tout logiciel bibliographique programmé pour ça saura reconnaître et identifier cette structure. Enjeu 1 : mieux présenter les résultats Mais un moteur de recherche NE SAIT PAS interpréter cette structure MARC La notice reste indéchiffrable Enjeu 1 : mieux présenter les résultats Pour que la structure de nos données soit comprise par les moteurs de recherche, il faut la TRADUIRE dans la structure des données sur le web. Enjeu 2 : changer la granularité Volonté d’offrir aux usagers du web une description à la granularité plus fine. Permet de choisir le niveau d’information pertinent : - infos sur l’œuvre, pour une recherche - infos sur l’item, pour un emprunt Enjeu 2 : changer la granularité TITRE NOTICE EDITEUR COTE TITRE EDITEUR NOTICE COTE TITRE NOTICE EDITEUR COTE Enjeu 2 : changer la granularité Requêtes spécifiques = résultats spécifiques COTE TITRE EDITEUR EDITEUR COTE Œuvres de Darwin ? TITRE TITRE TITRE TITRE Versions originales? TITRE EDITEUR EDITEUR EDITEUR COTE Disponibilité ? TITRE COTE COTE RDF convient à la FRBIsation ENJEU FRBR 1 : données visibles sur le web BESOIN : format de données interprétables par des machines ENJEU FRBR 2 : donnée comme granularité de la description BESOIN : nouvelle structuration des données qui conserve les liens Convient, car : -Basé sur un langage XML interprétable par des machines -Structuré pour rendre compte de liens « typés » LE FORMAT RDF Du Web de documents au web de données • Le Web dans les années 90 : des urls et des liens hypertextes (http) pour « naviguer » entre des pages et des fichiers : un web de documents • Les moteurs de recherche indexent les pages, mais mal leur contenu. – En particulier les bases de données, parmi lesquelles les catalogues. • Emergence du web de données à partir des années 2000 • Il s’agit de s’appuyer sur la technologie du web traditionnel pour représenter les données elles-mêmes RDF (Resource Description Framework) • Proposé en 1999 par le W3C • RDF est un modèle conceptuel qui s’appuie sur l’architecture du web • Il permet d’encoder des données pour qu’une machine puisse les traiter et les analyser • Un langage logique qui décrit, représente et relie des données à échanger sur le Web. Un langage pour les machines Une grammaire RDF + HTTP + URIs Des vocabulaires RDFS / OWL ontologies Des règles d’écriture RDF/XML, N3, Turtle, RDFa Des moyens de communication SPARQL protocoles Principe de base du RDF • Toute chose ou ressource peut être décrite avec des phrases minimales composées : - d’un verbe - d’un sujet - et d’un complément • Les URI servent à identifier ces ressources => c.à.d. en pratique, une URL Exemple Darwin a écrit « L’origine des espèces » Sujet : Charles Darwin Verbe : a écrit Complément : « L’origine des espèces » Les 3 éléments sujet – prédicat – objet constituent un TRIPLET Sujet Prédicat Objet RDF : une syntaxe sujet objet prédicat L’OBJET peut être Le SUJET est toujours une URI. Le PRÉDICAT est toujours une URI. Toute « chose » sur laquelle on veut faire des assertions (SUJET) doit avoir une URI. Les « choses » ont toujours un type : une CLASSE. Il permet d’exprimer les PROPRIÉTÉS des « choses », ou les RELATIONS des « choses » entre elles. un texte (LITTÉRAL) ou une URI. Les CLASSES et les PROPRIÉTÉS sont déclarées dans des VOCABULAIRES (ou « ONTOLOGIES ») pour être réutilisées. Pour un humain : Traduction en RDF Sujet : « L’origine des espèces » Verbe : a pour auteur Complément : Charles Darwin Sujet Prédicat Objet Pour un logiciel de bibliothèque : Sujet : PPN 021050384 (par ex.) Sujet (titre contenu dans le 200$a) Verbe : 700 #1$3026812304$4070 Complément : $3026812304 Prédicat Objet (PPN 026812304 = autorité de Charles Darwin) Pour n’importe quelle machine : Sujet : http://www.sudoc.fr/021050384/id Verbe : http://id.loc.gov/vocabulary/relators/aut Sujet Prédicat (ou marcrel:aut) Complément : http://www.idref.fr/026812304/id Objet (et pour le titre : dc:title « L’origine… ») La notion de graphe • Chaque ressource représentée par une URI peut faire l’objet de nouvelles assertions ‖ devenir le sujet de nouveaux triplets • L’ensemble des triplets, reliés les uns aux autres par les URI qu’ils ont en commun, constitue un graphe Exemple de graphe est contemporain de est une a créé est né en est né en est né à est conservée à 1840 est né à représente 1850 est mort en est mort à est un est situé à LES DONNÉES DU SUDOC EN RDF La première brique: identifier • Des URL pérennes pour les ressources – Sudoc : http://www.sudoc.fr/053911512 Construite sur le PPN de la notice – Idref : http://idref.fr/026927608 Construite sur le PPN de la notice • Des sitemaps pour parcourir les notices • Permet aux moteurs de recherche d’identifier des ressources L’exposition du Sudoc • Exposition des données depuis juillet 2011 • Deux sorties : – Du Schéma.org en html • Données minimales promues par les principaux moteurs : concession aux moteurs de recherche – Page en RDF/XML • Générée « à la volée » : pas (encore) de base de données en RDF • Conversion encore partielle Exemple En RDF/XML, ça donne quoi ? Données relatives à la notice Données relatives au document (Book) Auteurs (liens IdRef) Accès : http://www.sudoc.fr/127064583.rdf Ce qu’on pourrait voir en plus dans un Sudoc FRBRisé http://www.sudoc.fr/… : URI Oeuvre rdafrbr1:workManifested (œuvre manifestée = raccourci RDA) frbrer:P2001 : is realized through ou (RDA) rdabrbr1:expressionOfWork Autre expression de la même oeuvre http://www.sudoc.fr/… : URI Expression frbrer:P1023 : is embodied in ou (RDA) rdabrbr1:expressionManifested http://www.sudoc.fr/021050384/id (≈ Manifestation) frbrer:P2005 : is exemplified by ou (RDA) rdafrbr1:manifestationExemplified URI Item URI Item Autre manifestation de la même expression Un début de FRBRisation : exemple d’une thèse NNT Un essai de moissonnage du Sudoc : Sindice • Agrégateur de contenu RDF – Au départ projet universitaire : National University of Ireland (Galway), DERI (Digital Enterprise Research Institute, Irlande), Fondazione Bruno Kessler (Italie) et Openlink Software (USA). • Moissonne les notices du Sudoc depuis 2011 • Depuis novembre 2012 récupère les « dumps » La totalité du Sudoc est interrogeable en SPARQL • Interface de recherche par formulaire • Sparql endpoint (Virtuoso) : http://sparql.sindice.com/ permet d’interroger les données en RDF et de les exporter Sindice Exemple de requête SPARQL : récupérer des ppn à partir d’un titre Résultat DU RDF partout à l’Abes… • Dans Theses.fr • Dans Calames Moissonnés par le portail Isidore • Le hub de métadonnées RDF comme pivot pour stocker tous les formats • Le projet de recherche Qualinca (en cours) Travail sur la qualité des liens entre notices bibliographiques et d’autorités Algorithmes basés sur une modélisation en RDF (ontologie FRBRoo) EN RÉSUMÉ • L’exposition des données est un enjeu de la FRBRisation • Le RDF est pour cela privilégié car : – C’est un standard officiel et libre du web – Il est souple et ouvert • Aujourd’hui : – Les modèles sont encore balbutiants – la FRBRisation de l’existant reste problématique, En RDF comme en Marc • Demain : – Vers des modèles de données plus riches et mieux structurés – Du FRBR, enrichi : FRBRoo ? – Un jour, du RDF en production ? Se former à FRBR Demandez à votre CFCB ou établissement l’organisation d’une formation labelisée « Groupe RDA en France ». Coordonnées des formateurs sur la page « Se former »