Web des données - applications

publicité
Web des données - applications
Web des données - applications
1 / 19
2 / 19
Exemple introductif
Les Rich Snippets de Google permettent au moteur de recherche d’ajouter des
informations, en plus d’un simple lien vers un site, à partir d’informations
sémantiques trouvées sur les pages web.
Web des données - applications
Anne-Cécile Caron
Master IPI-NT
2016-2017
Donc, certains acteurs du web fournissent des données, d’autres les utilisent.
Web des données - applications
Web des données - applications
3 / 19
Web des données
Le web sémantique est composé :
I
des organisations/individus qui partagent leurs données avec les
autres sous la forme de ”sources de données”, ou d’informations
sémantiques présentes dans le code HTML des pages publiées.
I
des consommateurs de ces données, qui o↵rent des services
”intelligents”.
I
les consommateurs extraient les données qui les intéressent chez les
producteurs, grâce au langage de requête Sparql.
4 / 19
Exemple d’architecture
Extrait du livre Linked Data : Evolving the Web into a Global Data Space, de
Tom Heath et Christian Bizer.
Web des données - applications
Web des données - applications
Sources de données
Sources de données
5 / 19
Linking Open Data (LOD)
I
6 / 19
Graphe en juillet 2009
il existe sur le Web des ensembles ouverts de données (datasets) :
I
I
I
I
I
Geonames : informations géographiques, 8 millions de lieux fin 2009
LinkedGeoData : données géographiques issues du projet
OpenStreetMap
MusicBrainz : métadonnées musicales, stockées dans une BD
relationnelle
Wordnet : base de données lexicales, pour la langue anglaise.
DBLP : Base de données bibliographique, publications en
informatiques. Plus d’un million d’articles.
I
Linking Open Data est une communauté qui vise à rassembler les
données de ces sources sous la forme d’un graphe RDF.
I
Ceci est possible grâce à la notion de Linked Data, et des bonnes
pratiques pour la publication et la connexion de données
sémantiques sur le Web (basé sur RDF, Sparql).
Web des données - applications
Web des données - applications
Sources de données
Sources de données
7 / 19
8 / 19
Linking Open Data cloud diagram
I
I
La diapo précédente montre le cloud de LOD au 3 août 2014 : y
figurent 570 datasets (contre 295 en 2011) sur le millier existant.
pour qu’un dataset figure sur le diagramme :
I
I
I
il doit contenir au moins 1000 triplets
il doit être relié à un dataset déjà dans LOD avec au moins 50 liens
toutes ses données sont accessibles : on peut en extraire les triplets
RDF, ou bien on a un moyen de l’interroger en Sparql.
I
Statistiques sur le site http://stats.lod2.eu/ : environ 3400
datasets (en janvier 2016), 85 milliards de triplets
I
Le Linked Data Platform Working Group (W3C) travaille
actuellement à une recommandation pour l’intégration d’applications
basées sur HTTP (RESTfull) et utilisant des données liées.
Web des données - applications
Web des données - applications
Sources de données
Sources de données
9 / 19
DBPedia
I
1 dataset de LOD.
I
annotation RDF des pages de wikipedia.
I
Automatisation de la tâche d’extraction des triplets RDF à partir des
pages Wikipédia.
I
Interrogation par SparQL
I
Stockage des triplets RDF dans une base de données (triple store).
10 / 19
Exemple : Keith Richards sur Wikipedia
Web des données - applications
Web des données - applications
Sources de données
Sources de données
11 / 19
et sur DBPedia
12 / 19
Requête SparQL
I
Requêtes sur DBPedia avec Virtuoso : http://dbpedia.org/sparql
I
Vocabulaire issu des données sur Keith Richards :
dbp:genre
dbr:Blues
...
I
Requête : les artistes de blues nés entre 1930 et 1950, qui ont une guitare
Fender Telecaster
SELECT ?name ?birth ?page WHERE {
?person a dbo:Artist .
?person dbp:name ?name .
?person dbo:instrument dbr:Fender_Telecaster.
?person dbp:genre dbr:Blues.
OPTIONAL{?person foaf:isPrimaryTopicOf ?page}
?person dbp:birthDate ?birth .
FILTER (?birth < "1950-12-31"^^xsd:date) .
FILTER (?birth > "1930-01-01"^^xsd:date) .
}order by ?name
Web des données - applications
Web des données - applications
Sources de données
Exploitation des données
13 / 19
Moteurs de recherche
I
Pour certains, on peut poser une requête en langage naturel : Evi,
KNGINE, ...
I
Les moteurs de recherche ”classiques” basés sur des mots clés
comme Google et Bing utilisent des informations du web sémantique
(les annotations dans les pages mais aussi Linked Data avec par
exemple dbpedia, données géographiques, ...)
I
Certains outils permettent de faire des recherches dans des
documents RDF. Par exemple Watson permet de connaı̂tre tous les
documents RDF relatifs aux mots clés recherchés (comme ”Keith
Richards”).
14 / 19
Evi
I
I
I
Web des données - applications
Moteur de recherche en langue anglaise.
L’utilisateur peut enrichir l’outil avec ses propres connaissances.
liens vers DBPedia, Wikipedia, Freebase, ...
Web des données - applications
Exploitation des données
Exploitation des données
15 / 19
Jusqu’en 2014, on pouvait connaı̂tre le raisonnement qui avait permis de
trouver la réponse.
I
I
Question : how old is Keith Richards ?
Raisonnement :
I
I
I
I
I
La date du jour est le 31 janvier 2013 (par programme)
dans la base de connaissance, je sais que : Keith Richards est né le 8
décembre 1943
par calcul, j’en déduis que Keith Richards est âgé de 69 ans, 1 mois
et 23 jours.
Question : how old is AC DC ?
Raisonnement :
I
I
I
I
La date du jour est le 31 janvier 2013
base de connaissances : AC/DC a été fondé en 1973
base de connaissances : ”a pour date de fondation” est une sous
propriété de ”a pour date de création”
par calcul j’en déduis que AC/DC a entre 39 et 40 ans
16 / 19
KNGINE
I
I
I
Comme EVI, moteur de recherche en langue anglaise.
Photos, vidéos, liens sur le web, en plus de la réponse à la question
propose une API (REST, résultats JSon) pour intégrer les réponses
dans d’autres applications web.
Web des données - applications
Web des données - applications
Exploitation des données
Exploitation des données
17 / 19
Callimachus
I
permet de créer un site web avec RDF comme modèle de données.
I
On peut importer des sources de données (Linked Data)
I
Une page du site permet de visualiser une partie du graphe RDF
(par exemple, une personne avec ses coordonnées)
I
Une page peut aussi être la visualisation/mise en forme d’une
requête SPARQL
OpenCalais
I
I
Web des données - applications
Exploitation des données
19 / 19
Conclusion
I
I
I
I
Il existe des sources de données sémantiques, fédérées dans le ”LOD
Cloud”, mais aussi des annotations sémantiques présentes dans les
pages (cf cours RDFa, Microformats, Microdata, ...)
Ces sources sont accessibles aux machines, et permettent d’apporter
des informations à d’autres services.
Par exemple :
Le site BBC-Music (http://www.bbc.co.uk/music/) utilise
MusicBrainz et Wikipedia.
Nécessité de développer des SGBD adhoc, capables de stocker des
triplets et de répondre rapidement à des requêtes SPARQL. Par
exemple :
Virtuoso qui permet de stocker des triplets, d’interroger en Sparql
des sources de données RDF ou relationnelles (mapping), sur le
serveur local ou d’autres serveurs distants (comme DBPedia).
Les moteurs de recherche peuvent exploiter les données provenant de
sources de données, et les annotations sémantiques des pages Web.
18 / 19
Open Calais propose un service web qui crée des annotations
sémantiques (métadonnées) pour le contenu qui lui est soumis
) à la manière des programmes qui analysent Wikipedia pour
définir les données de Dbpedia, OpenCalais analyse le texte d’une
page et propose des informations sémantiques qui lui semblent en
rapport avec ce contenu.
plugins pour Drupal et Wordpress.
Téléchargement