Web Sémantique et
Linked Data
Le terme Web sémantique a été introduit dès
1998 par Tim Berners-Lee, l’inventeur du
World Wide Web, pour décrire l’évolution à
long terme d’un Web où les machines pour-
raient exploiter et échanger automatiquement
des données.
Le Linked Data (web de données) décrit une
méthode de publication des données struc-
turées de telle façon qu’elles puissent être
liées entre elles et ainsi devenir plus utiles. A
l’instar du web qui relie des pages HTML, le
Linked Data permet de lier des données au
niveau le plus fin : ces liens sont comme des
jointures dans les bases relationnelles, mais
ici à l’échelle du Web qui devient alors une
immense base de données distribuée.
Le Web de données utilise les normes du
web sémantique qui ont été développées par
le W3C depuis plus de 10 ans : modélisation
par OWL, représentation des données en
RDF, interrogation en SPARQL, échanges de
règles en RIF.
Open Data
Beaucoup de données sont déjà disponibles sur Internet : les catalogues
des sites marchands, les horaires de train ou d’avion, la description des
produits d’une entreprise, etc. Certains sites ont déjà fait le travail de
publier ces données selon les principes du Web de données, dont les
grands réseaux sociaux qui exposent les profils et les liens entre utilisa-
teurs selon ce paradigme.
Mais il est un ensemble de données que nombre d’associations, d’orga-
nisations et de personnes aimeraient voir publiées : ce sont les données
publiques, c’est-à-dire les données générées par les organismes gou-
vernementaux et para gouvernementaux : statistiques, indicateurs de
fonctionnement, éléments budgétaires, etc.
L’Open Data, qui signifie littéralement « données ouvertes », est un
mouvement qui vise à ce que les données publiques — celles qui sont
liées au fonctionnement de la collectivité et sont souvent payées par
l’argent public — soient rendues non seulement accessibles à tous, mais
aussi libres de droit et d’utilisation. Cette demande se situe pour l’instant
principalement dans un cadre politique et ne se focalise pas sur la façon
dont les données sont publiées. Mais il est évident que la publication
des statistiques de natalité par maternité/région sous forme d’un tableau
dans un fichier PDF est moins réutilisable que les mêmes informations
fournies dans un fichier Excel, qui sont elles-mêmes moins utilisables que
ces données publiées selon les principes et format du Linked Data afin
d’être automatiquement exploitables par des serveurs.
Tim Berners-Lee a d’ailleurs formalisé la démarche d’ouverture des
données en 5 étapes (de 1 à 5 étoiles) qui apportent chacune une valeur
supplémentaire :
ETAPE DÉMARCHE BÉNÉFICES
★Rendre des données disponibles sur le Web sans restriction
de licence quel que soit le format.
Les utilisateurs peuvent voir, imprimer, stocker ces données,
et les saisir à la main dans un autre système.
★★ Publier ces données dans un format structuré (ex : fichier
Excel au lieu d’un scan).
Les données peuvent être traitées de façon automatique,
visualisées, transformées dans d’autres formats.
★★★ Utiliser un format non propriétaire (ex : CSV plutôt que Excel). Les données peuvent être manipulées indépendamment d’un
format et d’un logiciel propriétaire.
★★★★ Utiliser des URIs pour identifier les choses afin qu’il soit
possible de pointer dessus.
Les données peuvent être liées, marquées et réutilisées.
★★★★★ Lier vos données avec des données publiées par d’autres
afin de fournir du contexte.
Les schémas de données sont découvrables
automatiquement et on découvre dynamiquement des
données complémentaires liées aux données lues.
Source : http://lab.linkeddata.deri.ie/2010/star-scheme-by-example
Impliqué dans le Web Sémantique depuis 2005, Antidot est un acteur référent du secteur. Nos solutions logicielles AIF et
AFS supportent et intègrent les normes du Web Sémantique et permettent de créer des solutions industrielles de publica-
tion ou d'exploitation des données ouvertes. Antidot est également précurseur dans la démarche du Linked Data appliqué
au système d'information des entreprises avec sa solution Linked Enterprise Data.