Web des donn´ees - applications
1/19
Web des donn´ees - applications
Anne-C´ecile Caron
Master IPI-NT
2016-2017
Web des donn´ees - applications
2/19
Exemple introductif
Les Rich Snippets de Google permettent au moteur de recherche d’ajouter des
informations, en plus d’un simple lien vers un site, `a partir d’informations
emantiques trouv´ees sur les pages web.
Donc, certains acteurs du web fournissent des donn´ees, d’autres les utilisent.
Web des donn´ees - applications
3/19
Web des donn´ees
Le web s´emantique est compos´e :
Ides organisations/individus qui partagent leurs donn´ees avec les
autres sous la forme de ”sources de donn´ees”, ou d’informations
s´emantiques pr´esentes dans le code HTML des pages publi´ees.
Ides consommateurs de ces donn´ees, qui orent des services
”intelligents”.
Iles consommateurs extraient les donn´ees qui les int´eressent chez les
producteurs, grˆace au langage de requˆete Sparql.
Web des donn´ees - applications
4/19
Exemple d’architecture
Extrait du livre Linked Data : Evolving the Web into a Global Data Space,de
Tom Heath et Christian Bizer.
Web des donn´ees - applications
Sources de donn´ees
5/19
Linking Open Data (LOD)
Iil existe sur le Web des ensembles ouverts de donn´ees (datasets) :
IGeonames : informations g´eographiques, 8 millions de lieux fin 2009
ILinkedGeoData : donn´ees g´eographiques issues du projet
OpenStreetMap
IMusicBrainz : m´etadonn´ees musicales, stock´ees dans une BD
relationnelle
IWordnet : base de donn´ees lexicales, pour la langue anglaise.
IDBLP : Base de donn´ees bibliographique, publications en
informatiques. Plus d’un million d’articles.
ILinking Open Data est une communaut´e qui vise `a rassembler les
donn´ees de ces sources sous la forme d’un graphe RDF.
ICeci est possible grˆace `a la notion de Linked Data, et des bonnes
pratiques pour la publication et la connexion de donn´ees
emantiques sur le Web (bas´e sur RDF, Sparql).
Web des donn´ees - applications
Sources de donn´ees
6/19
Graphe en juillet 2009
Web des donn´ees - applications
Sources de donn´ees
7/19
Web des donn´ees - applications
Sources de donn´ees
8/19
Linking Open Data cloud diagram
ILa diapo pr´ec´edente montre le cloud de LOD au 3 aoˆut 2014 : y
figurent 570 datasets (contre 295 en 2011) sur le millier existant.
Ipour qu’un dataset figure sur le diagramme :
Iil doit contenir au moins 1000 triplets
Iil doit ˆetre reli´e `a un dataset d´ej`a dans LOD avec au moins 50 liens
Itoutes ses donn´ees sont accessibles : on peut en extraire les triplets
RDF, ou bien on a un moyen de l’interroger en Sparql.
IStatistiques sur le site http://stats.lod2.eu/ : environ 3400
datasets (en janvier 2016), 85 milliards de triplets
ILe Linked Data Platform Working Group (W3C) travaille
actuellement `a une recommandation pour l’int´egration d’applications
bas´ees sur HTTP (RESTfull) et utilisant des donn´ees li´ees.
Web des donn´ees - applications
Sources de donn´ees
9/19
DBPedia
I1 dataset de LOD.
Iannotation RDF des pages de wikipedia.
IAutomatisation de la tˆache d’extraction des triplets RDF `a partir des
pages Wikip´edia.
IInterrogation par SparQL
IStockage des triplets RDF dans une base de donn´ees (triple store).
Web des donn´ees - applications
Sources de donn´ees
10 / 19
Exemple : Keith Richards sur Wikipedia
Web des donn´ees - applications
Sources de donn´ees
11 / 19
et sur DBPedia
Web des donn´ees - applications
Sources de donn´ees
12 / 19
Requˆete SparQL
IRequˆetes sur DBPedia avec Virtuoso : http://dbpedia.org/sparql
IVocabulaire issu des donn´ees sur Keith Richards :
dbp:genre
dbr:Blues
...
IRequˆete : les artistes de blues n´es entre 1930 et 1950, qui ont une guitare
Fender Telecaster
SELECT ?name ?birth ?page WHERE {
?person a dbo:Artist .
?person dbp:name ?name .
?person dbo:instrument dbr:Fender_Telecaster.
?person dbp:genre dbr:Blues.
OPTIONAL{?person foaf:isPrimaryTopicOf ?page}
?person dbp:birthDate ?birth .
FILTER (?birth < "1950-12-31"^^xsd:date) .
FILTER (?birth > "1930-01-01"^^xsd:date) .
}order by ?name
Web des donn´ees - applications
Sources de donn´ees
13 / 19
Moteurs de recherche
IPour certains, on peut poser une requˆete en langage naturel : Evi,
KNGINE, ...
ILes moteurs de recherche ”classiques” bas´es sur des mots cl´es
comme Google et Bing utilisent des informations du web s´emantique
(les annotations dans les pages mais aussi Linked Data avec par
exemple dbpedia, donn´ees g´eographiques, ...)
ICertains outils permettent de faire des recherches dans des
documents RDF. Par exemple Watson permet de connaˆıtre tous les
documents RDF relatifs aux mots cl´es recherch´es (comme ”Keith
Richards”).
Web des donn´ees - applications
Exploitation des donn´ees
14 / 19
Evi
IMoteur de recherche en langue anglaise.
IL’utilisateur peut enrichir l’outil avec ses propres connaissances.
Iliens vers DBPedia, Wikipedia, Freebase, ...
Web des donn´ees - applications
Exploitation des donn´ees
15 / 19
Jusqu’en 2014, on pouvait connaˆıtre le raisonnement qui avait permis de
trouver la r´eponse.
IQuestion : how old is Keith Richards ?
IRaisonnement :
ILa date du jour est le 31 janvier 2013 (par programme)
Idans la base de connaissance, je sais que : Keith Richards est n´e le 8
ecembre 1943
Ipar calcul, j’en d´eduis que Keith Richards est ˆag´e de 69 ans, 1 mois
et 23 jours.
IQuestion : how old is AC DC ?
IRaisonnement :
ILa date du jour est le 31 janvier 2013
Ibase de connaissances : AC/DC a ´et´e fond´e en 1973
Ibase de connaissances : ”a pour date de fondation” est une sous
propree de ”a pour date de ceation
Ipar calcul j’en d´eduis que AC/DC a entre 39 et 40 ans
Web des donn´ees - applications
Exploitation des donn´ees
16 / 19
KNGINE
IComme EVI, moteur de recherche en langue anglaise.
IPhotos, vid´eos, liens sur le web, en plus de la r´eponse `a la question
Ipropose une API (REST, r´esultats JSon) pour int´egrer les r´eponses
dans d’autres applications web.
Web des donn´ees - applications
Exploitation des donn´ees
17 / 19
Callimachus
Ipermet de cr´eer un site web avec RDF comme mod`ele de donn´ees.
IOn peut importer des sources de donn´ees (Linked Data)
IUne page du site permet de visualiser une partie du graphe RDF
(par exemple, une personne avec ses coordonn´ees)
IUne page peut aussi ˆetre la visualisation/mise en forme d’une
requˆete SPARQL
Web des donn´ees - applications
Exploitation des donn´ees
18 / 19
OpenCalais
IOpen Calais propose un service web qui cr´ee des annotations
s´emantiques (m´etadonn´ees) pour le contenu qui lui est soumis
)`a la mani`ere des programmes qui analysent Wikipedia pour
efinir les donn´ees de Dbpedia, OpenCalais analyse le texte d’une
page et propose des informations s´emantiques qui lui semblent en
rapport avec ce contenu.
Iplugins pour Drupal et Wordpress.
Web des donn´ees - applications
Exploitation des donn´ees
19 / 19
Conclusion
IIl existe des sources de donn´ees s´emantiques, f´ed´er´ees dans le ”LOD
Cloud”, mais aussi des annotations s´emantiques pr´esentes dans les
pages (cf cours RDFa, Microformats, Microdata, ...)
ICes sources sont accessibles aux machines, et permettent d’apporter
des informations `a d’autres services.
Par exemple :
Le site BBC-Music (http://www.bbc.co.uk/music/)utilise
MusicBrainz et Wikipedia.
IN´ecessit´e de d´evelopper des SGBD adhoc, capables de stocker des
triplets et de r´epondre rapidement `a des requˆetes SPARQL. Par
exemple :
Virtuoso qui permet de stocker des triplets, d’interroger en Sparql
des sources de donn´ees RDF ou relationnelles (mapping), sur le
serveur local ou d’autres serveurs distants (comme DBPedia).
ILes moteurs de recherche peuvent exploiter les donn´ees provenant de
sources de donn´ees, et les annotations s´emantiques des pages Web.
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !