Web des données - applications Web des données - applications 1 / 19 2 / 19 Exemple introductif Les Rich Snippets de Google permettent au moteur de recherche d’ajouter des informations, en plus d’un simple lien vers un site, à partir d’informations sémantiques trouvées sur les pages web. Web des données - applications Anne-Cécile Caron Master IPI-NT 2016-2017 Donc, certains acteurs du web fournissent des données, d’autres les utilisent. Web des données - applications Web des données - applications 3 / 19 Web des données Le web sémantique est composé : I des organisations/individus qui partagent leurs données avec les autres sous la forme de ”sources de données”, ou d’informations sémantiques présentes dans le code HTML des pages publiées. I des consommateurs de ces données, qui o↵rent des services ”intelligents”. I les consommateurs extraient les données qui les intéressent chez les producteurs, grâce au langage de requête Sparql. 4 / 19 Exemple d’architecture Extrait du livre Linked Data : Evolving the Web into a Global Data Space, de Tom Heath et Christian Bizer. Web des données - applications Web des données - applications Sources de données Sources de données 5 / 19 Linking Open Data (LOD) I 6 / 19 Graphe en juillet 2009 il existe sur le Web des ensembles ouverts de données (datasets) : I I I I I Geonames : informations géographiques, 8 millions de lieux fin 2009 LinkedGeoData : données géographiques issues du projet OpenStreetMap MusicBrainz : métadonnées musicales, stockées dans une BD relationnelle Wordnet : base de données lexicales, pour la langue anglaise. DBLP : Base de données bibliographique, publications en informatiques. Plus d’un million d’articles. I Linking Open Data est une communauté qui vise à rassembler les données de ces sources sous la forme d’un graphe RDF. I Ceci est possible grâce à la notion de Linked Data, et des bonnes pratiques pour la publication et la connexion de données sémantiques sur le Web (basé sur RDF, Sparql). Web des données - applications Web des données - applications Sources de données Sources de données 7 / 19 8 / 19 Linking Open Data cloud diagram I I La diapo précédente montre le cloud de LOD au 3 août 2014 : y figurent 570 datasets (contre 295 en 2011) sur le millier existant. pour qu’un dataset figure sur le diagramme : I I I il doit contenir au moins 1000 triplets il doit être relié à un dataset déjà dans LOD avec au moins 50 liens toutes ses données sont accessibles : on peut en extraire les triplets RDF, ou bien on a un moyen de l’interroger en Sparql. I Statistiques sur le site http://stats.lod2.eu/ : environ 3400 datasets (en janvier 2016), 85 milliards de triplets I Le Linked Data Platform Working Group (W3C) travaille actuellement à une recommandation pour l’intégration d’applications basées sur HTTP (RESTfull) et utilisant des données liées. Web des données - applications Web des données - applications Sources de données Sources de données 9 / 19 DBPedia I 1 dataset de LOD. I annotation RDF des pages de wikipedia. I Automatisation de la tâche d’extraction des triplets RDF à partir des pages Wikipédia. I Interrogation par SparQL I Stockage des triplets RDF dans une base de données (triple store). 10 / 19 Exemple : Keith Richards sur Wikipedia Web des données - applications Web des données - applications Sources de données Sources de données 11 / 19 et sur DBPedia 12 / 19 Requête SparQL I Requêtes sur DBPedia avec Virtuoso : http://dbpedia.org/sparql I Vocabulaire issu des données sur Keith Richards : dbp:genre dbr:Blues ... I Requête : les artistes de blues nés entre 1930 et 1950, qui ont une guitare Fender Telecaster SELECT ?name ?birth ?page WHERE { ?person a dbo:Artist . ?person dbp:name ?name . ?person dbo:instrument dbr:Fender_Telecaster. ?person dbp:genre dbr:Blues. OPTIONAL{?person foaf:isPrimaryTopicOf ?page} ?person dbp:birthDate ?birth . FILTER (?birth < "1950-12-31"^^xsd:date) . FILTER (?birth > "1930-01-01"^^xsd:date) . }order by ?name Web des données - applications Web des données - applications Sources de données Exploitation des données 13 / 19 Moteurs de recherche I Pour certains, on peut poser une requête en langage naturel : Evi, KNGINE, ... I Les moteurs de recherche ”classiques” basés sur des mots clés comme Google et Bing utilisent des informations du web sémantique (les annotations dans les pages mais aussi Linked Data avec par exemple dbpedia, données géographiques, ...) I Certains outils permettent de faire des recherches dans des documents RDF. Par exemple Watson permet de connaı̂tre tous les documents RDF relatifs aux mots clés recherchés (comme ”Keith Richards”). 14 / 19 Evi I I I Web des données - applications Moteur de recherche en langue anglaise. L’utilisateur peut enrichir l’outil avec ses propres connaissances. liens vers DBPedia, Wikipedia, Freebase, ... Web des données - applications Exploitation des données Exploitation des données 15 / 19 Jusqu’en 2014, on pouvait connaı̂tre le raisonnement qui avait permis de trouver la réponse. I I Question : how old is Keith Richards ? Raisonnement : I I I I I La date du jour est le 31 janvier 2013 (par programme) dans la base de connaissance, je sais que : Keith Richards est né le 8 décembre 1943 par calcul, j’en déduis que Keith Richards est âgé de 69 ans, 1 mois et 23 jours. Question : how old is AC DC ? Raisonnement : I I I I La date du jour est le 31 janvier 2013 base de connaissances : AC/DC a été fondé en 1973 base de connaissances : ”a pour date de fondation” est une sous propriété de ”a pour date de création” par calcul j’en déduis que AC/DC a entre 39 et 40 ans 16 / 19 KNGINE I I I Comme EVI, moteur de recherche en langue anglaise. Photos, vidéos, liens sur le web, en plus de la réponse à la question propose une API (REST, résultats JSon) pour intégrer les réponses dans d’autres applications web. Web des données - applications Web des données - applications Exploitation des données Exploitation des données 17 / 19 Callimachus I permet de créer un site web avec RDF comme modèle de données. I On peut importer des sources de données (Linked Data) I Une page du site permet de visualiser une partie du graphe RDF (par exemple, une personne avec ses coordonnées) I Une page peut aussi être la visualisation/mise en forme d’une requête SPARQL OpenCalais I I Web des données - applications Exploitation des données 19 / 19 Conclusion I I I I Il existe des sources de données sémantiques, fédérées dans le ”LOD Cloud”, mais aussi des annotations sémantiques présentes dans les pages (cf cours RDFa, Microformats, Microdata, ...) Ces sources sont accessibles aux machines, et permettent d’apporter des informations à d’autres services. Par exemple : Le site BBC-Music (http://www.bbc.co.uk/music/) utilise MusicBrainz et Wikipedia. Nécessité de développer des SGBD adhoc, capables de stocker des triplets et de répondre rapidement à des requêtes SPARQL. Par exemple : Virtuoso qui permet de stocker des triplets, d’interroger en Sparql des sources de données RDF ou relationnelles (mapping), sur le serveur local ou d’autres serveurs distants (comme DBPedia). Les moteurs de recherche peuvent exploiter les données provenant de sources de données, et les annotations sémantiques des pages Web. 18 / 19 Open Calais propose un service web qui crée des annotations sémantiques (métadonnées) pour le contenu qui lui est soumis ) à la manière des programmes qui analysent Wikipedia pour définir les données de Dbpedia, OpenCalais analyse le texte d’une page et propose des informations sémantiques qui lui semblent en rapport avec ce contenu. plugins pour Drupal et Wordpress.