Tutoriel_1-web_semantique_jabes20102

publicité
Le Web sémantique.
Un Web de métadonnées
Tutoriel JABES 2010 – Yann Nicolas
WEB DE DOCUMENTS
VS
WEB DE DONNÉES
Le Web est une collection de documents (HTML, PDF…)
Le Web devient une collection de bases de données
(RDF, RDFa)
hier
aujourd’hui
demain
Données
Page HTML
LE CONTENU DES DONNÉES EST
UTILISÉ DANS UN DOCUMENT HTML
Le Document HTML est fait pour être lu par des
humains ;
pas pour être exploité par des programmes
hier
aujourd’hui
demain
Page HTML
Données
Données
HTML + RDFa
LES DONNÉES SONT PRÉSENTES
DANS LE DOCUMENT HTML
Le Document HTML + RDFa peut être lu par des humains
et exploité par des programmes
La base de données est dans le Web, pas sous le Web
(deep Web)
LA VICTOIRE DES MÉTADONNÉES
• Rich snippets
• SearchMonkey
• Open Graph Protocol
MÉTADONNÉES DE…
•
•
•
•
•
•
Documents
Produits commerciaux
Entreprises et autres organismes
Evénements
Jeux
Recettes de cuisine
MÉTADONNÉES DE RECETTE GOOGLE
Property
name (fn)
recipeType (tag)
photo
published
summary
review
prepTime
cookTime
totalTime (duration)
Description
Required. The name of the dish.
The type of dish: for example, appetizer, entree, dessert ...
Image of the dish being prepared.
The date the recipe was published, in ISO date format.
A short summary describing the dish.
A review of the dish. Can include nested review information.
The length of time it takes to prepare the recipe for dish, in ISO 8601 duration format. Can use min, max as child elements to
specify a range of time.
The time it takes to actually cook the dish, in ISO 8601 duration format. Can use min, max as child elements to specify a range
of time.
The total time it takes to prepare the cook the dish, in ISO 8601 duration format. Can use min, max as child elements to
specify a range of time.
nutrition
Nutrition information about the recipe. Can contain the following child elements: servingSize, calories, fat, saturatedFat,
unsaturatedFat, carbohydrates, sugar, fiber, protein, cholesterol. These elements are not explicitly part of the hRecipe
microformat, but Google will recognize them.
instructions
The steps to make the dish. Can contain the child element instruction, which can be used to annotate each step.
yield
The quantity produced by the recipe (for example, number of people served, number of servings, etc).
ingredient
author
An ingredient used in the recipe. Can contain child items name (name of the ingredient) and amount. Use this to identify
individual ingredients.
Creator of the recipe. Can include nested person information.
MÉTADONNÉES DE DOCUMENTS
selon Yahoo
MÉTADONNÉES DE DOCUMENTS
SELON YAHOO
L’ENJEU
Que le Web de données
ne parle pas seulement de vidéos, de
produits commerciaux, de congrès et de
recettes de cuisine
mais également
des fonds de nos bibliothèques, de nos
thèses, de nos manuscrits, de nos articles,
de nos revues…
et de nos auteurs, directeurs de thèse,
organismes, vocabulaires …
COMMENT METTRE NOS MÉTADONNÉES SUR
LE WEB DE DONNÉES ?
Sudoc.zip
COMMENT METTRE NOS MÉTADONNÉES
SUR LE WEB DE DONNÉES
sans y mettre nos notices ?
Notices = paquets ficelés
 Ouvrir ces paquets !
 Dissection d’une notice MARC
 Vers des métadonnées en RDF
Partons d’une notice Sudoc en UNIMARC
décrivant l’édition commerciale d’une thèse
cam0 22 450
001 134144422
005 20100315113520.000
010 $a978-2-275-03443-0$bbr.$d38 EUR
073 1$a9782275034430
100 $a20090610d2009 k y0frey0103 ba
101 0 $afre
102 $aFR
105 $ay va 001yy
106 $ar
200 1 $aAnthropologie juridique de la personne morale$bTexte imprimé$fJeanFrançois Quievy,...$gpréface de Didier R. Martin,...
210 $aParis$cLGDJ-Lextenso éd.$dDL 2009
215 $a1 vol. (XI-416 p.)$d24 cm
225 2 $aBibliothèque de droit privé$x0520-0261$vtome 510
306 $aLGDJ = Librairie générale de droit et de jurisprudence
320 $aBibliogr. p. [369]-396. Notes bibliogr. Index
328 0$zTexte remanié de$bThèse de doctorat$cDroit privé$eParis 11$d2008
410 |$tBibliothèque de droit privé$x0520-0261$v510
451 |$tAnthropologie juridique de la personne morale$bTexte imprimé$fJean-François
Quievy$c[S.l.]$n[s.n.]$d2008$p1 vol. (343 p.)
606 $aAnthropologie juridique$2rameau
606 $aSociétés$xDroit$2rameau
606 $aPersonnes morales$2rameau
686 $aKA.111$2local_cujas
700 1$aQuievy$bJean-François$f1980-....$4070
702 1$aMartin$bDidier$f1944-....$4080
801 3$aFR$bAbes$c20100315$gAFNOR
Notice = paquet
Mais j’ai triché
cam0 22 450
001 134144422
005 20100315113520.000
010 $a978-2-275-03443-0$bbr.$d38 EUR
Liens aux autorités
073 1$a9782275034430
100 $a20090610d2009 k y0frey0103 ba
101 0 $afre
102 $aFR
105 $ay va 001yy
106 $ar
200 1 $aAnthropologie juridique de la personne morale$bTexte imprimé$fJeanFrançois Quievy,...$gpréface de Didier R. Martin,...
210 $aParis$cLGDJ-Lextenso éd.$dDL 2009
215 $a1 vol. (XI-416 p.)$d24 cm
225 2 $aBibliothèque de droit privé$x0520-0261$vtome 510
306 $aLGDJ = Librairie générale de droit et de jurisprudence
320 $aBibliogr. p. [369]-396. Notes bibliogr. Index
328 0$zTexte remanié de$bThèse de doctorat$cDroit privé$eParis 11$d2008
410 |$0001025449$tBibliothèque de droit privé$x0520-0261$v510
451 |$0127264191$tAnthropologie juridique de la personne morale$bTexte
imprimé$fJean-François Quievy$c[S.l.]$n[s.n.]$d2008$p1 vol. (343 p.)
606 $3028070364$aAnthropologie juridique$2rameau
606 $3027480968$aSociétés$xDroit$2rameau
606 $3027883248$aPersonnes morales$2rameau
686 $aKA.111$2local_cujas
700 1$3127281851$aQuievy$bJean-François$f1980-....$4070
702 1$3086099582$aMartin$bDidier$f1944-....$4080
801 3$aFR$bAbes$c20100315$gAFNOR
Notice bibliographique avec liens aux autorités
=
plusieurs paquets liés entre eux
Id= 086099582
Personne
Id= 127281851
. Nom = « Didier martin»
Personne
. Nom = « Jean-François
Quiévy »
Id=134144422
Edition de la Thèse
. Titre = « Anthropologie… »
. Langue = « fre »
Id= 027883248
Concept Rameau
. Forme retenue =
« Personnes morales »
Id= 001025449
Collection
. Titre = « Bibliothèque de
droit privé »
Id= 086099582
Personne
Id= 127281851
. Nom = « Didier martin»
Personne
. Nom = « Jean-François
Quiévy »
Id=134144422
Edition de la Thèse
. Titre = « Anthropologie… »
. Langue = « fre »
Id= 027883248
Concept Rameau
. Forme retenue =
« Personnes morales »
a pour langue
Id= 001025449
Collection
Id= iso639-3/fra
Langue
. Libellé= « Français »
. Titre = « Bibliothèque de
droit privé »
Id=123456789
La thèse comme
Œuvre
Id= 127281851
. Titre = « Anthropologie… »
Personne
Id= 086099582
Personne
. Nom = « Didier martin»
. Nom = « Jean-François
Quiévy »
a pour édition
Id=134144422
a pour langue
Edition de la Thèse
. Titre = « Anthropologie… »
. Langue = « fre »
Id= 001025449
Id= 027883248
Concept Rameau
. Forme retenue =
« Personnes morales »
Collection
Id= iso639-3/fra
Langue
. Libellé= « Français »
. Titre = « Bibliothèque de
droit privé »
DÉMARCHE
• Vider la notice bibliographique
• Déporter le maximum d’information dans
des notices d’autorité
• L’information contenue dans une autorité est
» séparée
» plus facile à réutiliser
 Web de données : une façon de pousser cette logique jusqu’au bout
DÉFAIRE LE PAQUET DE MÉTADONNÉES
• Décomposer la notice en affirmations
élémentaires et indépendantes (triplets)
123456789
123456789
127281851
123456789
134144422
134144422
001025449
001025449
est de type Thèse
a pour auteur127281851
a pour nom
« Jean-François Quiévy »
a pour édition
134144422
est de type
Edition
appartient à 001025449
est de type
Collection
a pour titre « Bib. De droit privé »
ON EST PASSÉ DE MARC À RDF
(Resource Description Framework – W3C)
123456789
a pour auteur
127281851
127281851
a pour nom« J.F. Quiévy »
• 2 informations indépendantes l’une de l’autre
• 2 informations dans la même base ou non !
 Information distribuée sur le Web
Comment faire des liens
si les informations qui composaient le paquet-notice
sont éclatées ??sur le Web ?
DES INFORMATIONS DÉCENTRALISÉES
ET DES IDENTIFIANTS GLOBAUX
Information gérée par la base catalogue :
http://www.catalogue.org/123456789
a pour auteur
http://www.referentiel.org/127281851
Information gérée par la base référentiel :
http://www.référentiel.org/127281851
a pour nom
« J.F. Quiévy »
Qu’est-ce que ça change ?????
#1
N’IMPORTE QUI PEUT COMPLÉTER LA
« NOTICE » !
• Car n’importe qui peut affirmer quelque
chose sur ma thèse
Exemple :
http://www.ma-bib-perso.org/yann
possède-un-exemplaire-de
http://www.catalogue.org/134144422
 Je m’exemplarise dans le Sudoc…
ps : je prête aussi
N’IMPORTE QUI PEUT RÉUTILISER MES
DONNÉES!
• Car tout le monde comprend les triplets
RDF (bientôt).
Exemple :
De nouvelles interfaces, de nouveaux outils
 Où sont les limites du catalogue ? Une
AOC ?
RAISONNER
• N’importe qui peut tirer de mes données
des choses que j’ignorais
• Exemple :
• Le catalogue dit que ce livre appartient à la
collection http://www.issn.org/collection/001025449
• La base ISSN dit que cette collection est une
collection d’ouvrages de droit privé (règle).
« on » peut en déduire que ce livre est un livre de
droit privé (ce qui n’était pas dans la notice)
LEVER LE DILEMME DE
L’INTEROPÉRABILITÉ
• Dilemme :
• Populaire mais pauvre (Dublin Core simple)
• Rester riche et mourir seul (MARC, TEF)
• Solution :
tef:auteur
sous-propriété de
dc:creator
NOS DONNÉES DANS LE WEB DE
DONNÉES
• Calames
RDFa en 2008
• Autorités
Fin 2010
• STAR
Fin 2010
• Portail des thèses 2011
Aller plus loin
• RDF Primer
http://www.w3.org/TR/rdf-primer/
• RDFa (RDF dans une page HTML)
http://www.w3.org/TR/xhtml-rdfa-primer/
Téléchargement