www.antidot.net
Les cas d’usage Antidot
Open Data :
démo Monuments
Historiques
Antidot a réalisé une base de
connaissance riche sur les
Monuments Historiques Français
par agrégation et utilisation
de sept sources de données
distinctes.
Ce projet a été exclusivement
réalisé avec les solutions Antidot:
Antidot Information Factory
pour la collecte, le traitement et
l’enrichissement des données;
Antidot Finder Suite pour
fournir les interfaces de
recherche et de navigation..
L’application Monuments Historiques
L’ouverture du site data.gouv.fr le 5 décembre 2011, aussitôt suivie
d’autres initiatives, a marqué une accélération du mouvement Open Data
en France. Nous avons profité de l’ouverture des données pour réaliser
une application qui démontre la valeur du Linked Data en maillant des
données issues de différentes sources publiques.
Les données souches sont la liste des immeubles protégés au titre des
Monuments Historiques. Disponible sur data.gouv.fr dans un fichier CSV,
cette source de données décrit 43 720 monuments.
L’enrichissement de cette base a été réalisé en exploitant 6 sources de
données ouvertes :
• La liste des 3 065 gares de voyageurs du Réseau Ferré
National avec leurs coordonnées géographiques, telle
que fournie par data.gouv.fr au format XLS.
Elle est exploitée pour lier monuments et gares qui
sont à proximité.
• La liste des 301 stations du métro parisien avec leurs
coordonnées, fournie par OpenStreetMap. Cette
source est exploitée pour situer les monuments
parisiens à proximité d’une station de métro.
• Les données du code officiel géographique (COG) de
l’INSEE. Cette source, disponible au format RDF, décrit
22 régions, 99 départements, plus de 4 000 cantons
et chefs lieux.
• Les photos des monuments historiques proposées
par Wikimedia Commons. Cette source, notamment
alimentée par le concours « Wiki loves monuments »,
apporte 122 828 photos pour 12 586 monuments
historiques désignés par leur code PA : il s’agit d’un
code délivré de façon unique pour chaque monument
et présent dans la liste souche des monuments.
• La description des monuments historiques de
Wikipedia fournie par DBpedia. Cette source de
données (au format RDF) décrit 3,64 millions d’objets,
dont 413 000 lieux. Elle est accessible directement à
partir des informations de Wikimedia Commons.
• Le service de géolocalisation Yahoo! PlaceFinder
permet de géolocaliser les monuments à partir de leur
adresse (calcul des coordonnées latitude et longitude).
Les données contenues dans le fichier souche (monuments) sont
relativement sommaires. Si on prend l’exemple de la Tour Eiffel, les
informations fournies sont :
REF : PA00088801
ETUD : Recensement immeubles MH
INSEE : 75107
TICO : Tour Eiffel
ADRS : Champ-de-Mars
STAT : propriété de la commune
PPRO : La tour Eiffel : inscription par arrêté du 24 juin 1964
AUTR : Eiffel Gustave (maître de l’œuvre)
SCLE : 4e quart 19e siècle
Web Service
de géo localisation
normalisation
enrichissement
Sources
complémentaires
Sources
complémentaires
Moteur
de recherche
Application
Monuments
Historiques
Source principale
Source principale
Les données souches, la liste des gares et
les référentiels Insee sont récupérées sous
forme de fichiers, alors que les sources
OpenStreetMap, Wikimedia, Wikipedia et
Yahoo! sont collectées à travers des API
spécifiques.
En utilisant la solution Antidot Information
Factory, toutes ces données sont
collectées, nettoyées, normalisées puis
transformées en RDF, le format de
représentation des données standardisé
par le W3C pour le Web de données.
La tour Eiel est une tour de fer
puddlé de 324 mètres...
région
adresse
lat, long
lat, long
ligne
photos
description
code PAréférence
inseecode insee
département
Ile de
France
Paris
Paris
7ème
Champ
de Mars
Champ
de Mars
Métro
Ligne 6
Bir
Hakeim
Tour
Eiel
Tour
Eiel
75107 75107
48.854
2.289
48.858
2.294
88801 88801
Le schéma suivant illustre comment ces données initiales sont enrichies en exploitant les données contenues dans les
sources complémentaires.
L’objet métier cible ainsi créé est un « monument » dont la définition est complétée avec les informations suivantes
apportées par les sources complémentaires :
•coordonnées géographiques,
•adresse, ville, département et région,
•gares ferroviaires à moins de 20 km
• stations de métro à moins de 1 km pour les bâtiments
parisiens,
•description étendue en plusieurs langues,
•période historique,
•type de monument,
•propriétaire,
•photos.
Ce processus est réalisé automatiquement à l’échelle de toutes les bases et le résultat est un graphe comprenant plus de
4,5 millions d’éléments (triplets RDF), dont près de 450 000 ont été inférés, c’est-à-dire créés par applications de règles.
Ces objets cibles sont fournis en entrée du moteur de recherche AFS. Le
résultat est accessible à travers une application web qui offre les fonctions de
recherche et de navigation suivantes :
•recherche en plein texte
•filtrage pour une région, un département ou une ville donnés
•par type de monument : église, château, statue, site industriel
•par période historique : préhistoire, moyen-âge, renaissance etc
• par type de propriétaire : personne ou société privée, commune, Etat…
avec combinaison possible de tous ces critères, sous forme de « facettes de
recherche » très simples à manipuler.
Consultez l’application en ligne pour voir le résultat :
http://labs.antidot.net/demo/monuments
www.antidot.net [email protected]
Web Sémantique et
Linked Data
Le terme Web sémantique a été introduit dès
1998 par Tim Berners-Lee, l’inventeur du
World Wide Web, pour décrire l’évolution à
long terme d’un Web où les machines pour-
raient exploiter et échanger automatiquement
des données.
Le Linked Data (web de données) décrit une
méthode de publication des données struc-
turées de telle façon qu’elles puissent être
liées entre elles et ainsi devenir plus utiles. A
l’instar du web qui relie des pages HTML, le
Linked Data permet de lier des données au
niveau le plus fin : ces liens sont comme des
jointures dans les bases relationnelles, mais
ici à l’échelle du Web qui devient alors une
immense base de données distribuée.
Le Web de données utilise les normes du
web sémantique qui ont été développées par
le W3C depuis plus de 10 ans : modélisation
par OWL, représentation des données en
RDF, interrogation en SPARQL, échanges de
règles en RIF.
Open Data
Beaucoup de données sont déjà disponibles sur Internet : les catalogues
des sites marchands, les horaires de train ou d’avion, la description des
produits d’une entreprise, etc. Certains sites ont déjà fait le travail de
publier ces données selon les principes du Web de données, dont les
grands réseaux sociaux qui exposent les profils et les liens entre utilisa-
teurs selon ce paradigme.
Mais il est un ensemble de données que nombre d’associations, d’orga-
nisations et de personnes aimeraient voir publiées : ce sont les données
publiques, c’est-à-dire les données générées par les organismes gou-
vernementaux et para gouvernementaux : statistiques, indicateurs de
fonctionnement, éléments budgétaires, etc.
L’Open Data, qui signifie littéralement « données ouvertes », est un
mouvement qui vise à ce que les données publiques — celles qui sont
liées au fonctionnement de la collectivité et sont souvent payées par
l’argent public — soient rendues non seulement accessibles à tous, mais
aussi libres de droit et d’utilisation. Cette demande se situe pour l’instant
principalement dans un cadre politique et ne se focalise pas sur la façon
dont les données sont publiées. Mais il est évident que la publication
des statistiques de natalité par maternité/région sous forme d’un tableau
dans un fichier PDF est moins réutilisable que les mêmes informations
fournies dans un fichier Excel, qui sont elles-mêmes moins utilisables que
ces données publiées selon les principes et format du Linked Data afin
d’être automatiquement exploitables par des serveurs.
Tim Berners-Lee a d’ailleurs formalisé la démarche d’ouverture des
données en 5 étapes (de 1 à 5 étoiles) qui apportent chacune une valeur
supplémentaire :
ETAPE DÉMARCHE BÉNÉFICES
Rendre des données disponibles sur le Web sans restriction
de licence quel que soit le format.
Les utilisateurs peuvent voir, imprimer, stocker ces données,
et les saisir à la main dans un autre système.
★★ Publier ces données dans un format structuré (ex : fichier
Excel au lieu d’un scan).
Les données peuvent être traitées de façon automatique,
visualisées, transformées dans d’autres formats.
★★★ Utiliser un format non propriétaire (ex : CSV plutôt que Excel). Les données peuvent être manipulées indépendamment d’un
format et d’un logiciel propriétaire.
★★★★ Utiliser des URIs pour identifier les choses afin qu’il soit
possible de pointer dessus.
Les données peuvent être liées, marquées et réutilisées.
★★★★★ Lier vos données avec des données publiées par d’autres
afin de fournir du contexte.
Les schémas de données sont découvrables
automatiquement et on découvre dynamiquement des
données complémentaires liées aux données lues.
Source : http://lab.linkeddata.deri.ie/2010/star-scheme-by-example
Impliqué dans le Web Sémantique depuis 2005, Antidot est un acteur référent du secteur. Nos solutions logicielles AIF et
AFS supportent et intègrent les normes du Web Sémantique et permettent de créer des solutions industrielles de publica-
tion ou d'exploitation des données ouvertes. Antidot est également précurseur dans la démarche du Linked Data appliqué
au système d'information des entreprises avec sa solution Linked Enterprise Data.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !