Web de données et RDA Architecture du Web (1) • World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes) • Architecture du Web = les standards définissant l’infrastructure technologique • Rôle du W3C (World Wide Web Consortium) : s’occupe de la standardisation de l’architecture du Web 2 Les objectifs du W3C • Accessibilité pour les logiciels et machines – – – – Interopérabilité et portabilité Production de contenu Web facilitée Réduction du volume des pages Meilleure visibilité et indexation par les moteurs de recherche – Compatibilité – Pérennité des documents – Validation des pages par des services de validation pour garantir la cohérence et la qualité du code • Accessibilité universelle aux contenus 3 Architecture du Web (2) Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language) Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur Des identifiants : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiées de manière univoque par une URI : chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …) Les URI 2 déclinaisons : URN (Uniform Resource Name) URI d’identification d’une ressource par son nom unique dans un espace de noms Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer Exemple : urn:isbn:978-2-10-057294-6 = URI de référence à une publication URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une ressource sur Internet et la méthode permettant d'y accéder = URI donnant accès à la ressource Évolutions du web Web 1.0 web de documents permet aux usagers de naviguer facilement sur Internet en utilisant des liens hypertexte une page = un document format : HTML (HyperText Markup Language) ne permet que la mise en forme Web 2.0 web collaboratif évolution du Web du point de vue des technologies employées et des usages Internet n’est plus simplement un media mais une plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des pages et de dialoguer entre eux Le Web de documents Données Documents Base de données Hyperlien Base de données Yann Nicolas, Le Web de données, enssib, 11 octobre 2012 Limites du Web de documents HTML : langage textuel d’échange de documents semistructurés Les données sont cachées sous les pages HTML (« web profond ») Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines : des données structurées = utilisable directement par un ordinateur pour effectuer un calcul car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens Le Web de données ? Web de données ou Linked Data ou Web of Data Mise sur le Web de données : Mouvement de l’Open Data Mise à disposition de données publiques ouvertes (etalab, creative comm.) librement accessibles sans restriction de copyright, licence payante, brevet, … Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/) + Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web Le Web de données ? Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement (Définition de Tim Berners-Lee dès 1999) Objectif : Mettre à disposition des données en utilisant des techniques standardisées qui garantissent l’interopérabilité : Web documentaire : relations par des liens entre des pages HTML Web de données : extension du Web permettant de relier non pas des documents (pages HTML) mais les données ellesmêmes et de les rendre interprétables par les machines Repose sur le standard URI = relations entre URI qui désignent tout objet décrit Le Web de données liées Données Documents Base de données Liens entre les bases de données Hyperlien Base de données Yann Nicolas, Le Web de données, enssib, 11 octobre 2012 Voilà ce à quoi rêvent nos machines… RDF RDF = Resource Description Framework Standard permettant de décrire les ressources Web et métadonnées qui y sont associées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute ressource du Web : page Web, image, video, personne, objet, évènement, produit, service, … tout ce qui peut être identifié par un URI peut être considéré comme une ressource Objectif : partager les métadonnées pour des ressources identiques par l’utilisation d’une syntaxe commune RDF ?? C’est aussi simple que ça : PREDICAT OBJET SUJET Sujet : Charles Darwin Prédicat : A écrit = Creator Objet : The origin of species RDF : un modèle conceptuel • Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément = déclaration RDF Exemple : Honoré de Balzac a écrit "La Comédie humaine" Sujet : Honoré de Balzac Ressource Verbe : a écrit Predicat Complément : La Comédie humaine Objet 15 RDF : la notion de triplet • Une déclaration est composée de 3 éléments = triplet • Triplet {ressource – propriété – valeur} – sujet = ressource – predicat = propriété : nature de la relation – objet = valeur : caractéristique ou ressource liée Exemple : Sujet (Ressource) : Honoré de Balzac Predicat (Propriété) : Creator Objet (Valeur) : La Comédie humaine 16 RDF : Graphe • La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien PREDICAT SUJET OBJET 17 RDF : modèle de graphe • Chaque membre du triplet est une ressource qui peut être le sujet ou l’objet d’autres déclarations • On construit ainsi un modèle de graphe Sujet : Honoré de Balzac Prédicat : A écrit Objet : La comédie humaine Predicat : Comprend Objet : Scènes de la vie privée 18 RDF : modèle de graphe (2) L’objet d’un triplet peut aussi être : un littéral = chaîne de caractères, nombre, date Sujet : Charles Darwin Objet : The origin of species Prédicat : A écrit Prédicat : Est né «1809» Prédicat : Comprend Sujet : The origin of species Objet : An introduction on the origin of species RDF : un langage extensible • Cadre conceptuel de description des ressources applicable à n’importe quel domaine d’application • Peut être exprimé en utilisant la syntaxe RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C 20 000 cam 22 3 450 001FRBNF42226398000000X 003http://catalogue.bnf.fr/ark:/12148/cb42226398b 010 $a978-2-603-01444-8$brel. 100 $a20100624d2005 m y0frey50 ba 1011 $afre 102 $aFR 105 $a||||z 00||| 106 $ar 2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005 215 $a1 vol. (311 p.)$cill.$d20 cm 2252 $aˆLes ‰guides du naturaliste 300 $aBibliogr. p. 301-303 410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005 http://catalogue.bnf.fr/ark:/12148/cb34235813n 454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe 606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau 676 $a595.781 39$v22 700 1$312013664$aCarter$bDavid$f1943-....$4070 http://catalogue.bnf.fr/ark:/12148/cb120136648 702 1$312367696$aHargreaves$bBrian$4440 http://catalogue.bnf.fr/ark:/12148/cb12367696d 801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc Des URI pour désigner les ressources http://catalogue.bnf.fr/ark:/12148/cb42226398b Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves . - Paris : Delachaux et Niestlé, DL 2005 http://catalogue.bnf.fr/ark:/12148/cb34235813n Les Guides du naturaliste http://catalogue.bnf.fr/ark:/12148/cb120136648 Carter, David (1943-....) http://catalogue.bnf.fr/ark:/12148/cb12367696d Hargreaves, Brian Des vocabulaires normalisés pour exprimer les relations entre les données 2001 $aGuide des chenilles d'Europe 700 1$312013664$aCarter$bDavid$f1943-.... $4070 200 $a Titre propre DC : Title ISBD : Title proper RDA : Title proper 700 $4070 Auteur du texte DC : Creator RDA : Creator RDA : Author Des URI pour exprimer les relations Des URI pour exprimer les relations DC : Title http://purl.org/dc/elements/1.1/title ISBD : has title proper http://iflastandards.info/ns/isbd/elements/P1004 RDA : Title proper http://rdvocab.info/Elements/titleProper DC : Creator http://purl.org/dc/elements/1.1/creator RDA : Author http://rdvocab.info/roles/author Une syntaxe normalisée 2001 $aGuide des chenilles d'Europe Cet ouvrage a pour titre propre "Guide des chenilles d'Europe" http://catalogue.bnf.fr/ark:/12148/cb42226398b http://iflastandards.info/ns/isbd/elements/P1004 "Guide des chenilles d’Europe" Le sujet est toujours une URI Le prédicat est toujours une URI sujet L’objet peut être verbe prédicat un texte (« littéral ») complément d’objet ou une URI objet Un réseau de relations entre des données "Guide des chenilles d’Europe" "Carter" http://catalogue.bnf.fr/ark:/12148/cb42226398b "David" http://xmlns.com/foaf/0.1/givenName A pour prénom http://catalogue.bnf.fr/ark:/12148/cb120136648 1943 http://data.bnf.fr/what-happened/date-1943 http://catalogue.bnf.fr/ark:/12148/cb34235813n "Les Guides du naturaliste" Pour aller vers le Web de données Vers le web de données Vers le web sémantique À condition d’utiliser les standards du web 3 avril 2012 -- Bordeaux -Urfist/Médiaquitaine Philippe Le Pape -- ABES C’est très bien tout ça mais… Quel rapport avec la bibliothèque, le catalogue, le catalogage ? Zoom sur Le lecteur 29 Les bibliothèques dans le Web de données aujourd’hui 30 Que peut nous apporter le Web de données ? • • • • • • Relier les catalogues des bibliothèques avec d’autres données existantes Ouverture à d’autres communautés (libraires, éditeurs, …) Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques Plus de visibilité par les moteurs de recherche Tirer parti des données structurées des catalogue et des référentiels Interopérabilité = Souplesse pour la réutilisation des données Des exemples Isidore : http://www.rechercheisidore.fr Plateforme de recherche permettant l’accès aux données numériques des sciences humaines et sociales Données en accès libre (open access) Moissonnage ciblé des métadonnées et données scientifiques structurées Enrichissement des métadonnées selon les principes du Web de données Des exemples Data.bnf.fr : http://data.bnf.fr Fiches descriptives des auteurs et des oeuvres Possibilité de télécharger le RDF associé à la fiche descriptive VIAF (Virtual International Authority File) http://viaf.org/ Valoriser les fichiers d'autorité des bibliothèques (visibilité et liens entre les données) Rationnaliser la gestion des fichiers d’autorités Y aller … avec les bons outils Pour utiliser la boîte à outils du Web sémantique, il faut, nous l’avons vu : Identifier les données Construire un réseau de relations entre ces données Pour savoir si vous avez suivi : « De quel outil disposons-nous pour analyser les relations entre les données au sein des catalogues de bibliothèques ? » Tous les chemins mènent à… Organisation de l’information bibliographique : Formats d’encodage MARC ISBD FRBR Web de données ! Format compatible RDF (BIBFRAME ?) Web de données ! Normes de catalogage AACR Afnor REICAT Etc… RDA? Web de données !