Open Data : démo Monuments Historiques

publicité
Les cas d’usage Antidot
Open Data :
démo Monuments
Historiques
Antidot a réalisé une base de
connaissance riche sur les
Monuments Historiques Français
par agrégation et utilisation
de sept sources de données
distinctes.
Ce projet a été exclusivement
réalisé avec les solutions Antidot :
Antidot Information Factory
pour la collecte, le traitement et
l’enrichissement des données ;
Antidot Finder Suite pour
fournir les interfaces de
recherche et de navigation..
L’application Monuments Historiques
L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie
d’autres initiatives, a marqué une accélération du mouvement Open Data
en France. Nous avons profité de l’ouverture des données pour réaliser
une application qui démontre la valeur du Linked Data en maillant des
données issues de différentes sources publiques.
Les données souches sont la liste des immeubles protégés au titre des
Monuments Historiques. Disponible sur data.gouv.fr dans un fichier CSV,
cette source de données décrit 43 720 monuments.
L’enrichissement de cette base a été réalisé en exploitant 6 sources de
données ouvertes :
•La liste des 3 065 gares de voyageurs du Réseau Ferré
National avec leurs coordonnées géographiques, telle
que fournie par data.gouv.fr au format XLS.
Elle est exploitée pour lier monuments et gares qui
sont à proximité.
•La liste des 301 stations du métro parisien avec leurs
coordonnées, fournie par OpenStreetMap. Cette
source est exploitée pour situer les monuments
parisiens à proximité d’une station de métro.
•Les données du code officiel géographique (COG) de
l’INSEE. Cette source, disponible au format RDF, décrit
22 régions, 99 départements, plus de 4 000 cantons
et chefs lieux.
•Les photos des monuments historiques proposées
par Wikimedia Commons. Cette source, notamment
alimentée par le concours « Wiki loves monuments »,
apporte 122 828 photos pour 12 586 monuments
historiques désignés par leur code PA : il s’agit d’un
code délivré de façon unique pour chaque monument
et présent dans la liste souche des monuments.
•La description des monuments historiques de
Wikipedia fournie par DBpedia. Cette source de
données (au format RDF) décrit 3,64 millions d’objets,
dont 413 000 lieux. Elle est accessible directement à
partir des informations de Wikimedia Commons.
•Le service de géolocalisation Yahoo! PlaceFinder
permet de géolocaliser les monuments à partir de leur
adresse (calcul des coordonnées latitude et longitude).
www.antidot.net
normalisation
Application
Monuments
Historiques
enrichissement
Source principale
Web Service
de géo localisation
Moteur
de recherche
Sources
complémentaires
Les données contenues dans le fichier souche (monuments) sont
relativement sommaires. Si on prend l’exemple de la Tour Eiffel, les
informations fournies sont :
REF
Les données souches, la liste des gares et
les référentiels Insee sont récupérées sous
forme de fichiers, alors que les sources
OpenStreetMap, Wikimedia, Wikipedia et
Yahoo! sont collectées à travers des API
spécifiques.
:PA00088801
ETUD :
Recensement immeubles MH
INSEE :75107
TICO
ADRS
:Tour Eiffel
:Champ-de-Mars
STAT :
propriété de la commune
PPRO :
La tour Eiffel : inscription par arrêté du 24 juin 1964
AUTR :
Eiffel Gustave (maître de l’œuvre)
SCLE :4e quart 19e siècle
En utilisant la solution Antidot Information
Factory, toutes ces données sont
collectées, nettoyées, normalisées puis
transformées en RDF, le format de
représentation des données standardisé
par le W3C pour le Web de données.
Le schéma suivant illustre comment ces données initiales sont enrichies en exploitant les données contenues dans les
sources complémentaires.
région
Ile de
France
Champ
de Mars
Champ
de Mars
lat, long
Métro
Ligne 6
48.858
2.294
Paris
ligne
adresse
lat, long
département
Tour
Eiffel
Paris
7ème
code insee
75107
insee
75107
48.854
2.289
Tour
Eiffel
référence
photos
Bir
Hakeim
code PA
description
88801
88801
La tour Eiffel est une tour de fer
puddlé de 324 mètres...
L’objet métier cible ainsi créé est un « monument » dont la définition est complétée avec les informations suivantes
apportées par les sources complémentaires :
•coordonnées géographiques,
•description étendue en plusieurs langues,
•adresse, ville, département et région,
•période historique,
•gares ferroviaires à moins de 20 km
•type de monument,
•stations de métro à moins de 1 km pour les bâtiments
parisiens,
•propriétaire,
•photos.
Ce processus est réalisé automatiquement à l’échelle de toutes les bases et le résultat est un graphe comprenant plus de
4,5 millions d’éléments (triplets RDF), dont près de 450 000 ont été inférés, c’est-à-dire créés par applications de règles.
Ces objets cibles sont fournis en entrée du moteur de recherche AFS. Le
résultat est accessible à travers une application web qui offre les fonctions de
recherche et de navigation suivantes :
•recherche en plein texte
•filtrage pour une région, un département ou une ville donnés
•par type de monument : église, château, statue, site industriel
•par période historique : préhistoire, moyen-âge, renaissance etc
•par type de propriétaire : personne ou société privée, commune, Etat…
avec combinaison possible de tous ces critères, sous forme de « facettes de
recherche » très simples à manipuler.
Consultez l’application en ligne pour voir le résultat :
http://labs.antidot.net/demo/monuments
Web Sémantique et
Linked Data
Open Data
Le terme Web sémantique a été introduit dès
1998 par Tim Berners-Lee, l’inventeur du
World Wide Web, pour décrire l’évolution à
long terme d’un Web où les machines pourraient exploiter et échanger automatiquement
des données.
Le Linked Data (web de données) décrit une
méthode de publication des données structurées de telle façon qu’elles puissent être
liées entre elles et ainsi devenir plus utiles. A
l’instar du web qui relie des pages HTML, le
Linked Data permet de lier des données au
niveau le plus fin : ces liens sont comme des
jointures dans les bases relationnelles, mais
ici à l’échelle du Web qui devient alors une
immense base de données distribuée.
Le Web de données utilise les normes du
web sémantique qui ont été développées par
le W3C depuis plus de 10 ans : modélisation
par OWL, représentation des données en
RDF, interrogation en SPARQL, échanges de
règles en RIF.
Beaucoup de données sont déjà disponibles sur Internet : les catalogues
des sites marchands, les horaires de train ou d’avion, la description des
produits d’une entreprise, etc. Certains sites ont déjà fait le travail de
publier ces données selon les principes du Web de données, dont les
grands réseaux sociaux qui exposent les profils et les liens entre utilisateurs selon ce paradigme.
Mais il est un ensemble de données que nombre d’associations, d’organisations et de personnes aimeraient voir publiées : ce sont les données
publiques, c’est-à-dire les données générées par les organismes gouvernementaux et para gouvernementaux : statistiques, indicateurs de
fonctionnement, éléments budgétaires, etc.
L’Open Data, qui signifie littéralement « données ouvertes », est un
mouvement qui vise à ce que les données publiques — celles qui sont
liées au fonctionnement de la collectivité et sont souvent payées par
l’argent public — soient rendues non seulement accessibles à tous, mais
aussi libres de droit et d’utilisation. Cette demande se situe pour l’instant
principalement dans un cadre politique et ne se focalise pas sur la façon
dont les données sont publiées. Mais il est évident que la publication
des statistiques de natalité par maternité/région sous forme d’un tableau
dans un fichier PDF est moins réutilisable que les mêmes informations
fournies dans un fichier Excel, qui sont elles-mêmes moins utilisables que
ces données publiées selon les principes et format du Linked Data afin
d’être automatiquement exploitables par des serveurs.
Tim Berners-Lee a d’ailleurs formalisé la démarche d’ouverture des
données en 5 étapes (de 1 à 5 étoiles) qui apportent chacune une valeur
supplémentaire :
ETAPE
DÉMARCHE
BÉNÉFICES
★
Rendre des données disponibles sur le Web sans restriction
de licence quel que soit le format.
Les utilisateurs peuvent voir, imprimer, stocker ces données,
et les saisir à la main dans un autre système.
★★
Publier ces données dans un format structuré (ex : fichier
Excel au lieu d’un scan).
Les données peuvent être traitées de façon automatique,
visualisées, transformées dans d’autres formats.
★★★
Utiliser un format non propriétaire (ex : CSV plutôt que Excel).
Les données peuvent être manipulées indépendamment d’un
format et d’un logiciel propriétaire.
★★★★
Utiliser des URIs pour identifier les choses afin qu’il soit
possible de pointer dessus.
Les données peuvent être liées, marquées et réutilisées.
★★★★★
Lier vos données avec des données publiées par d’autres
afin de fournir du contexte.
Les schémas de données sont découvrables
automatiquement et on découvre dynamiquement des
données complémentaires liées aux données lues.
Source : http://lab.linkeddata.deri.ie/2010/star-scheme-by-example
Impliqué dans le Web Sémantique depuis 2005, Antidot est un acteur référent du secteur. Nos solutions logicielles AIF et
AFS supportent et intègrent les normes du Web Sémantique et permettent de créer des solutions industrielles de publication ou d'exploitation des données ouvertes. Antidot est également précurseur dans la démarche du Linked Data appliqué
au système d'information des entreprises avec sa solution Linked Enterprise Data.
www.antidot.net [email protected]
Téléchargement