Partie 3 - RDA en France

publicité
Web de données et
RDA
Architecture du Web (1)
• World Wide Web : toile d'araignée de serveurs
d'informations reliés les uns aux autres par des
liens physiques (le réseau matériel) et des liens
logiques (les liens hypertextes)
• Architecture du Web = les standards
définissant l’infrastructure technologique
• Rôle du W3C (World Wide Web Consortium) :
s’occupe de la standardisation de l’architecture
du Web
2
Les objectifs du W3C
• Accessibilité pour les logiciels et machines
–
–
–
–
Interopérabilité et portabilité
Production de contenu Web facilitée
Réduction du volume des pages
Meilleure visibilité et indexation par les moteurs de
recherche
– Compatibilité
– Pérennité des documents
– Validation des pages par des services de
validation pour garantir la cohérence et la qualité
du code
• Accessibilité universelle aux contenus
3
Architecture du Web (2)
Repose sur 3 technologies :
 Un protocole : HTTP (Hypertext Transfer Protocol)
 Un langage : HTML (Hypertext Markup Language)
 Standard défini par le W3C pour la diffusion de documents sur le
Web pour pouvoir afficher de l'information à l'aide de balises
dont le nombre est limité. Il est interprété par le navigateur
 Des identifiants : URI (Uniform Resource Identifier)
 Une ressource : tout objet
 Ressource identifiées de manière univoque par une URI : chaîne
de caractères normalisée permettant d'identifier de manière
permanente une ressource abstraite ou physique, accessible ou
non sur Internet (personne, organisme, lieu, évènement,
concept, …)
Les URI
 2 déclinaisons :
 URN (Uniform Resource Name)
 URI d’identification d’une ressource par son nom unique
dans un espace de noms
 Utilisé pour identifier une ressource sans s’occuper de son
emplacement ou de la manière de la référencer
 Exemple :
urn:isbn:978-2-10-057294-6
= URI de référence à une publication
 URL (Uniform Resource Locator)
 URI spécifiant l'adresse physique de localisation d'une
ressource sur Internet et la méthode permettant d'y accéder
= URI donnant accès à la ressource
Évolutions du web
 Web 1.0  web de documents
 permet aux usagers de naviguer facilement sur
Internet en utilisant des liens hypertexte
 une page = un document
 format : HTML (HyperText Markup Language)
 ne permet que la mise en forme
 Web 2.0  web collaboratif
 évolution du Web du point de vue des technologies
employées et des usages
 Internet n’est plus simplement un media mais une
plate-forme de services et d'applications en ligne
 Permet aux internautes d'interagir sur le contenu des
pages et de dialoguer entre eux
Le Web de documents
Données
Documents
Base de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents
 HTML : langage textuel d’échange de documents semistructurés
 Les données sont cachées sous les pages HTML (« web
profond »)
 Seules les pages HTML sont liées entre elles
 Les pages HTML sont faites pour les humains
 Ce que veulent les machines :
 des données structurées = utilisable directement par un
ordinateur pour effectuer un calcul
 car elles se complètent les unes les autres
 car les liens permettent de naviguer et de découvrir
 avec des liens qualifiés, signifiants
 au-delà du « voir aussi » des hyperliens
Le Web de données ?
 Web de données ou Linked Data ou Web of Data
 Mise sur le Web de données :
 Mouvement de l’Open Data
 Mise à disposition de données publiques ouvertes
(etalab, creative comm.) librement accessibles sans
restriction de copyright, licence payante, brevet, …
 Données pouvant être réutilisées, reproduites,
redistribuées librement et sans discrimination (cf.
http://www.opendefinition.org/okd/)
 + Mise en relation des données pour construire un
réseau global qui permet, à partir d’une donnée,
d’accéder aux autres données liées du Web
Le Web de données ?
 Un Web constitué de données accessibles, structurées,
dans un format non-propriétaire, identifiées et liées entre
elles sémantiquement
(Définition de Tim Berners-Lee dès 1999)
 Objectif : Mettre à disposition des données en utilisant
des techniques standardisées qui garantissent
l’interopérabilité :
 Web documentaire : relations par des liens entre des pages
HTML
 Web de données : extension du Web permettant de relier non
pas des documents (pages HTML) mais les données ellesmêmes et de les rendre interprétables par les machines
 Repose sur le standard URI = relations entre URI qui désignent
tout objet décrit
Le Web de données liées
Données
Documents
Base de
données
Liens entre les
bases de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Voilà ce à quoi rêvent nos machines…
RDF
 RDF = Resource Description Framework
 Standard permettant de décrire les ressources Web et
métadonnées qui y sont associées
 Proposé en 1999 par le W3C
 Permet de décrire, représenter et relier simplement toute
ressource du Web :
 page Web, image, video, personne, objet, évènement,
produit, service, …
 tout ce qui peut être identifié par un URI peut être
considéré comme une ressource
 Objectif : partager les métadonnées pour des ressources
identiques par l’utilisation d’une syntaxe commune
RDF ??
C’est aussi simple que ça :
PREDICAT
OBJET
SUJET
Sujet :
Charles Darwin
Prédicat :
A écrit
= Creator
Objet :
The origin of species
RDF : un modèle conceptuel
• Principe de base : toute chose peut être décrite
avec des phrases minimales composées d’un
verbe, d’un sujet et d’un complément =
déclaration RDF
Exemple :
Honoré de Balzac a écrit "La Comédie humaine"
Sujet : Honoré de Balzac
Ressource
Verbe : a écrit
Predicat
Complément : La Comédie humaine
Objet
15
RDF : la notion de triplet
•
Une déclaration est composée de 3 éléments
= triplet
•
Triplet {ressource – propriété – valeur}
– sujet = ressource
– predicat = propriété : nature de la relation
– objet = valeur : caractéristique ou ressource liée
Exemple :
Sujet (Ressource) : Honoré de Balzac
Predicat (Propriété) : Creator
Objet (Valeur) : La Comédie humaine
16
RDF : Graphe
• La déclaration est représentée visuellement
par un graphe (système de nœuds reliés
par des flèches) qui permet de parcourir
l'information de lien en lien
PREDICAT
SUJET
OBJET
17
RDF : modèle de graphe
• Chaque membre du triplet est une
ressource qui peut être le sujet ou l’objet
d’autres déclarations
• On construit ainsi un modèle de graphe
Sujet :
Honoré de Balzac
Prédicat :
A écrit
Objet :
La comédie humaine
Predicat :
Comprend
Objet :
Scènes de la vie privée
18
RDF : modèle de graphe (2)
 L’objet d’un triplet peut aussi être :
 un littéral = chaîne de caractères, nombre, date
Sujet :
Charles
Darwin
Objet : The
origin of
species
Prédicat :
A écrit
Prédicat :
Est né
«1809»
Prédicat :
Comprend
Sujet : The
origin of
species
Objet : An
introduction on
the origin of
species
RDF : un langage extensible
• Cadre conceptuel de description des
ressources applicable à n’importe quel
domaine d’application
• Peut être exprimé en utilisant la syntaxe
RDF/XML (eXtensible Markup
Language) : seule syntaxe qui fait l’objet
actuellement d’une recommandation du
W3C
20
000 cam 22 3 450
001FRBNF42226398000000X
003http://catalogue.bnf.fr/ark:/12148/cb42226398b
010 $a978-2-603-01444-8$brel.
100 $a20100624d2005 m y0frey50 ba
1011 $afre
102 $aFR
105 $a||||z 00|||
106 $ar
2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de
500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves
210 $aParis$cDelachaux et Niestlé$dDL 2005
215 $a1 vol. (311 p.)$cill.$d20 cm
2252 $aˆLes ‰guides du naturaliste
300 $aBibliogr. p. 301-303
410 0$034235813$tˆLes
‰Guides du naturaliste$x1022-2707$d2005
http://catalogue.bnf.fr/ark:/12148/cb34235813n
454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe
606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques
et mémentos$2rameau
676 $a595.781 39$v22
700 1$312013664$aCarter$bDavid$f1943-....$4070
http://catalogue.bnf.fr/ark:/12148/cb120136648
702 1$312367696$aHargreaves$bBrian$4440
http://catalogue.bnf.fr/ark:/12148/cb12367696d
801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
Des URI
pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves
. - Paris : Delachaux et Niestlé, DL 2005
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
http://catalogue.bnf.fr/ark:/12148/cb120136648
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Hargreaves, Brian
Des vocabulaires normalisés
pour exprimer les relations entre les données
2001 $aGuide des chenilles d'Europe
700 1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
DC : Title
ISBD : Title proper
RDA : Title proper
700 $4070 Auteur du texte
DC : Creator
RDA : Creator
RDA : Author
Des URI
pour exprimer les relations
Des URI
pour exprimer les relations
DC : Title
http://purl.org/dc/elements/1.1/title
ISBD : has title proper
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper
http://rdvocab.info/Elements/titleProper
DC : Creator
http://purl.org/dc/elements/1.1/creator
RDA : Author
http://rdvocab.info/roles/author
Une syntaxe normalisée
2001 $aGuide des chenilles d'Europe
Cet ouvrage
a pour titre propre
"Guide des chenilles d'Europe"
http://catalogue.bnf.fr/ark:/12148/cb42226398b
http://iflastandards.info/ns/isbd/elements/P1004
"Guide des chenilles d’Europe"
Le sujet est
toujours une URI
Le prédicat est
toujours une URI
sujet
L’objet peut être
verbe
prédicat un texte (« littéral »)
complément
d’objet
ou une
URI
objet
Un réseau
de relations entre des données
"Guide des chenilles d’Europe"
"Carter"
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"David"
http://xmlns.com/foaf/0.1/givenName
A pour prénom
http://catalogue.bnf.fr/ark:/12148/cb120136648
1943
http://data.bnf.fr/what-happened/date-1943
http://catalogue.bnf.fr/ark:/12148/cb34235813n
"Les Guides du naturaliste"
Pour aller vers le Web de données
Vers le web de données
Vers le web sémantique
À condition d’utiliser
les standards du web
3 avril 2012 -- Bordeaux -Urfist/Médiaquitaine
Philippe Le Pape -- ABES
C’est très bien tout ça mais…
Quel rapport avec la bibliothèque, le
catalogue, le catalogage ?
Zoom sur
Le lecteur
29
Les bibliothèques dans le Web de
données aujourd’hui
30
Que peut nous apporter le Web de
données ?
•
•
•
•
•
•
Relier les catalogues des bibliothèques avec
d’autres données existantes
Ouverture à d’autres communautés (libraires,
éditeurs, …)
Navigation par les utilisateurs sans avoir à
connaître les formats des bases de données et les
langages de requête spécifiques
Plus de visibilité par les moteurs de recherche
Tirer parti des données structurées des catalogue
et des référentiels
Interopérabilité = Souplesse pour la réutilisation
des données
Des exemples
 Isidore : http://www.rechercheisidore.fr
 Plateforme de recherche permettant l’accès
aux données numériques des sciences
humaines et sociales
 Données en accès libre (open access)
 Moissonnage ciblé des métadonnées et
données scientifiques structurées
 Enrichissement des métadonnées selon les
principes du Web de données
Des exemples
 Data.bnf.fr : http://data.bnf.fr
 Fiches descriptives des auteurs et des oeuvres
 Possibilité de télécharger le RDF associé à la fiche
descriptive
VIAF (Virtual International Authority File)
http://viaf.org/
Valoriser les fichiers d'autorité des bibliothèques
(visibilité et liens entre les données)
Rationnaliser la gestion des fichiers d’autorités
Y aller … avec les bons outils
 Pour utiliser la boîte à outils du Web
sémantique, il faut, nous l’avons vu :
 Identifier les données
 Construire un réseau de relations entre
ces données
 Pour savoir si vous avez suivi :
« De quel outil disposons-nous pour analyser
les relations entre les données au sein des
catalogues de bibliothèques ? »
Tous les chemins mènent à…
Organisation de
l’information
bibliographique :
Formats
d’encodage
MARC
ISBD
FRBR
Web de
données !
Format
compatible
RDF
(BIBFRAME ?)
Web de
données !
Normes de
catalogage
AACR
Afnor
REICAT
Etc…
RDA?
Web de
données !
Téléchargement