Le protocole OAI et ses usages en bibliothèque

publicité
Le protocole OAI et ses usages en bibliothèque
Qu’est-ce que le protocole OAI ?
L'OAI-PMH (Open Archives Initiative’s Protocol for Metadata Harvesting) ou
protocole OAI facilite l’échange de données entre des fournisseurs de données (par
exemple des bibliothèques ou des musées...) et un fournisseur de service (qui peut être
aussi une bibliothèque, un centre de documentation, un portail thématique ou local
désirant rassembler des données).
Ce protocole d’échange permet de créer, d’alimenter et de tenir à jour, par des
procédures automatisées, des réservoirs d’enregistrements qui signalent, décrivent et
rendent accessibles des documents, sans les dupliquer ni modifier leur localisation
d’origine.
Grâce au protocole OAI, une bibliothèque agissant en tant que fournisseur de
données a la possibilité d’offrir une visibilité accrue à ses documents, notamment à ses
publications électroniques ou à ses fonds spécialisés.
Réciproquement, en tant que fournisseur de service, une bibliothèque peut réaliser
une base de données ou un portail documentaire dans son domaine de spécialité ou sur
un thème quelconque, en collectant les données descriptives de ressources et documents
de tous types, accessibles sur l’Internet dans des entrepôts OAI.
Enfin, le protocole OAI permet de faire communiquer entre elles des bases de
données diverses et hétérogènes, et donc de réaliser des partenariats entre plusieurs
établissements que rapprochent leurs collections (complémentarité des fonds) ou leurs
publics (services culturels d’une même collectivité).
Sommaire
1) Un protocole simple et interopérable pour le partage des données..................................2
1.1 Histoire et objectif du protocole OAI............................................................................2
1.2 Principes fondamentaux du protocole OAI .................................................................2
1.2.1 Concepts mis en oeuvre.......................................................................................2
1.2.2 Principes organisationnels ..................................................................................3
1.2.3 Aspects techniques de la communication entre moissonneur et entrepôt...........5
2) Concevoir des services OAI en bibliothèque.....................................................................6
2.1 L’entrepôt OAI..............................................................................................................6
2.1.1 Quelques exemples d’entrepôts OAI...................................................................6
2.1.2 Le choix du format d’exposition des données......................................................7
2.1.3 Exposer en Dublin Core des données nativement structurées en format de
catalogage.....................................................................................................................8
2.1.4 La fourniture de données.....................................................................................8
2.2 Le moissonneur OAI....................................................................................................9
2.2.1 Quelques exemples de moissonneurs.................................................................9
2.2.2 Une moisson pour alimenter une base XML......................................................10
2.2.3 Implémenter un moissonneur OAI.....................................................................10
Conclusion............................................................................................................................11
Documents et liens utiles.....................................................................................................11
Réactions et comptes-rendus..............................................................................................12
Glossaire..............................................................................................................................13
1) Un protocole simple et interopérable pour le partage des
données
1.1 Histoire et objectif du protocole OAI
L’OAI-PMH a été élaboré par l’Open Archive Initiative (à l’issue de la Convention de
Santa Fe, 1999) pour faciliter la description et la diffusion des métadonnées d’articles
scientifiques disponibles en accès ouvert sur Internet, notamment dans des répertoires
de pré-publications. Il s’est vite révélé très adapté au partage de métadonnées de
documents scientifiques ou culturels, présentes dans des ensembles de ressources
homogènes ou hétérogènes, plus ou moins réparties. Après une phase d’expérimentation,
le protocole a atteint une certaine stabilité depuis juin 2002, avec sa version 2, considérée
comme la spécification définitive.
Ce protocole permet :
– d’abattre des barrières du " web invisible " en rendant possible le signalement de
ressources non accessibles aux moteurs de recherche ;
– de faciliter l’interopérabilité des ressources documentaires culturelles, sans
duplication ni déchargement des documents numériques primaires ;
– de mettre à jour simplement et automatiquement des métadonnées collectées et
des liens, en répercutant les dernières modifications des réservoirs sources, sans
copier à nouveau l’intégralité des données (la charge n’en étant que plus légère
pour les serveurs) ;
– d’encourager l’utilisation d’un format de description assez générique pour les
besoins transdisciplinaires, même les plus simples, sans interdire des spécifications
adaptées à des besoins plus spécialisés ;
– d'intégrer, de ce fait, des ressources d’origine diverses, dans des traditions
descriptives propres, sans empêcher le maintien parallèle de ces traditions pour
d’autres usages.
1.2 Principes fondamentaux du protocole OAI
On trouvera les spécifications complètes du protocole sur le site de l’OAI, à l’adresse
suivante : http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm
1.2.1 Concepts mis en oeuvre
Le protocole OAI s’appuie sur quelques concepts documentaires simples :
– la ressource, qui est le document-objet décrit, réel (exemple : un livre) ou virtuel
(une image numérique, un texte électronique) ;
– l’item, qui est la fiche ou la notice informatique décrivant cet objet (exemple : une
notice bibliographique en format UNIMARC), et qui contient ou génère des
métadonnées échangeables pour le protocole OAI, à la seule condition qu’un
identifiant unique, construit selon les recommandations de l’Open Archive
Initiative, puisse être attribué à l’item dans la base qui le contient ;
– l’enregistrement (record), qui est un ensemble de métadonnées extraites d’un item
dans un format XML, et qui fait l’objet de l’échange entre l’entrepôt et le
moissonneur (exemple : la description du livre en format BiblioML ou Dublin Core) ;
il y a autant d’enregistrements possibles par item que de formats dans lesquels
l’entrepôt est moissonnable ;
– de manière optionnelle, chacun des items peut relever d’un ou de plusieurs
ensembles ou lots (sets), définis par le producteur de l’entrepôt pour permettre une
moisson " en bloc " de la totalité des items relatifs à un type de support ou à un
thème particulier (par exemple les périodiques, l'Histoire de l'Alsace ou la division
320-Sciences politiques de la classification Dewey).
Principes conceptuels de l'OAI-PMH
1.2.2 Principes organisationnels
Dans ce contexte, le protocole définit le langage par lequel communiquent le
fournisseur de données (entrepôt) et le fournisseur de services (agrégateur), qui
rassemble des données collectées par un moissonneur.
Pour alimenter l'agrégateur, le moissonneur visite plusieurs entrepôts, qu'il doit
interroger massivement une seule fois ou en plusieurs étapes, pour extraire les
enregistrements des items qui l'intéressent.
Après la collecte, le moissonneur dépose les données dans une base que le
fournisseur de services rend accessible à ses clients. L'interrogation de cette base est
directe et ne sollicite pas les entrepôts d'origine. En effet, l'utilisateur final interroge
uniquement le réservoir de notices, constitué par moisson, du fournisseur de service, qui
lui retourne en réponse la liste des notices pertinents.
Ces notices proposent notamment un lien hypertexte vers le document primaire,
seulement accessible sur le serveur du fournisseur de données : en activant ce lien,
l'utilisateur arrive sur le site et dans l'environnement graphique de l’institution productrice,
dont le serveur n'est finalement sollicité que pour la fourniture de ce seul document.
Architecture fonctionnelle de services OAI
1.2.3 Aspects techniques de la communication entre moissonneur et
entrepôt
Le moissonneur soumet des requêtes XML aux entrepôts en recourant aux
protocoles http et url, universellement répandus, pour une interopérabilité optimale ; les
réponses qu'il reçoit sont également en syntaxe XML.
Les requêtes, dites " verbes" ou " commandes", auxquelles correspondent un
ensemble de réponses standardisées, sont au nombre de six. Elles permettent au
moissonneur :
– de vérifier si le service désigné est un répertoire OAI (Identify) ;
– de demander la liste des formats de métadonnées que l’entrepôt est capable de
fournir (ListMetadataformats) ;
– d’obtenir, le cas échéant, la liste des ensembles (par exemple thématiques) formés
par le fournisseur de données (ListSets) ;
– d’obtenir la liste des identifiants et des dates de dernière modification des items
disponibles dans la base (ListIdentifiers) ;
– de collecter l’information d’un item spécifique (GetRecord) ;
– de récupérer en bloc l’ensemble des items d’un répertoire (ListRecords).
Ces requêtes permettent de définir les caractéristiques de l’exploitation que
chaque moissonneur fait d’un entrepôt : une fois qu’un entrepôt et son offre documentaire
sont identifiés, il appartient au responsable du moissonneur (ou au moissonneur lui-même,
automatiquement, selon des critères prédéfinis) de choisir les lots (" sets ") ou la liste des
données à collecter, puis la fréquence des visites du moissonneur, qui donneront lieu à
des collectes ciblées après chaque mise à jour des données cibles de la collecte.
L’OAI-PMH et la norme Z39-50
Au contraire de portails fédérateurs de ressources ou de catalogues collectifs
reposant sur la norme d’interrogation Z39-50, une base de donnée constituée par
moissons OAI permet au fournisseur de service de rendre accessibles des données
descriptives de documents sans faire peser une lourde charge sur le serveur de
chaque fournisseur de données ; de plus, le temps de réponse au client final dépend
du seul serveur du fournisseur de service (et non du serveur le moins performant de
l’ensemble des fournisseurs de données, comme c’est le cas dans une architecture Z3950).
En revanche, les données exploitées par le fournisseur de service sont le reflet
d’un état figé des données collectées, en date du dernier passage du moissonneur,
alors qu’une interrogation simultanée de plusieurs bases par transfert Z39-50 permet
d’afficher les données en temps réel. Par conséquent, l’OAI-PMH n’est pas toujours la
solution organisationnelle et technique la plus pertinente pour des entrepôts dont une part
importante du contenu est soumis à des modifications très fréquentes, par exemple
quotidiennes (actualités, œuvres vivantes…).
2) Concevoir des services OAI en bibliothèque
Pour une bibliothèque cherchant à valoriser et à diffuser largement son offre de
contenus électroniques en ligne, la constitution d’un entrepôt OAI est une solution
simple à mettre en œuvre. D’autre part, une bibliothèque cherchant un moyen de collecter
l’information en ligne pertinente sur un sujet ou un domaine donné trouvera avantage à
concevoir et à développer un moissonneur OAI. Le protocole OAI peut donc être utilisé
pour des projets très différents, l’une et l’autre approche pouvant être combinées au sein
d’un même projet.
Quelques SIGB et logiciels de gestion électronique de documents (par exemple ExLibris) ou outils de recherche pour documents XML (plate-forme SDX depuis la version
2.2) commencent à proposer des services OAI. Toutefois, même sans de tels logiciels, de
nombreux outils libres répertoriés sur le site de l’OAI, peuvent suffire au développement
de services OAI.
Voici quelques exemples pouvant servir de références et quelques conseils pour la
constitution d’un entrepôt de données moissonnables selon le protocole OAI et pour
l’implémentation d’un moissonneur.
2.1 L’entrepôt OAI
Avant de créer un entrepôt OAI, tout fournisseur de données potentiel doit choisir s’il
veut rendre ses données accessibles à tous les moissonneurs OAI qui parcourent la toile ;
si tel est le cas, il adopte un modèle partagé d’entrepôt.
En revanche, les fournisseurs de données ne souhaitant pas diffuser leurs
métadonnées au-delà d’un cercle restreint de clients bien identifiés, qui sont leurs
partenaires dans le cadre d’un même projet et qui leur sont liés par des accords ou par
une charte, peuvent adopter un modèle réservé d’entrepôt : seul l’ajout de restrictions
d’accès aux contenus différencie ce modèle d’entrepôt du précédent.
Les entrepôts de modèle réservé sont le plus souvent conçus pour alimenter un seul
fournisseur de service, par exemple un catalogue collectif, mais ce modèle peut aussi
correspondre à une étape intermédiaire d’un projet et se transformer ensuite en entrepôt
partagé.
2.1.1 Quelques exemples d’entrepôts OAI
De nombreux entrepôts OAI ont été spécifiquement développés pour l’archivage et la
diffusion en ligne des prépublications d’articles scientifiques (E-prints de l’Université de
Southampton, ou encore Pubmedcentral) ou des thèses (projet Archimède de l’Université
de Laval, dont le logiciel est librement disponible).
C’est aussi le cas en France, où la plupart des entrepôts OAI sont consacrés à des
articles scientifiques (Aladin : Accès Libre aux Archives du Dépôt Institutionnel Numérique,
de la Maison des Sciences de l’Homme-Alpes développé avec DSpace) ou à des thèses
en ligne, comme le projet Cyberthèses de l’Université Lyon-2 ou encore les thèses en
ligne des grandes écoles de Paris, Pastel. On trouve également quelques entrepôts OAI
voués à l’archivage et à la valorisation de collections documentaires spécifiques, comme
l'archive de parole du LACITO (Langues et civilisations de tradition orale) au CNRS.
En dehors de ces domaines, rares sont encore les entrepôts conçus par les
bibliothèques françaises. Ils permettraient pourtant d’améliorer le signalement des grands
ensembles d’images et de dossiers documentaires mis en ligne par les bibliothèques
françaises. à la suite d’autres grandes bibliothèques nationales, comme la Bibliothèque du
Congrès qui a rendu moissonnable une grande partie de ses collections numériques
d’American Memory, la Bibliothèque nationale de France achève la production d’un
entrepôt accessible aux moissonneurs OAI pour exporter les notices, dans une version en
format Dublin Core, des monographies de sa bibliothèque numérique Gallica.
L’OAI-PMH à la Bibliothèque nationale de France
L’entrepôt OAI que la BnF développe pour la bibliothèque numérique Gallica (serveur
accessible aux moissonneurs à l’adresse suivante : http://oai.bnf.fr/oai2) sera
moissonnable par lots correspondant notamment aux dossiers en ligne et à une sélection
de classes de la classification Dewey ; par la suite, l’expérience sera étendue aux
périodiques, cartes et plans et autres documents de la bibliothèque numérique, et peutêtre hors du champ de celle-ci, avec les dossiers pédagogiques et les expositions en
ligne. D’autres bibliothèques partenaires, comme celles du Conservatoire national des
Arts et métiers et la Bibliothèque interuniversitaire de médecine, envisagent de mettre en
place des serveurs OAI pour échanger des notices avec la BnF pour les collections
numériques.
2.1.2 Le choix du format d’exposition des données
Rendre une base documentaire (bibliothèque d’images, base de thèses, base de
prépublications ou catalogue de bibliothèque) compatible avec le protocole OAI ne
demande pas de modifications profondes de sa structure ni des données qu’elle
contient : il suffit d’ajouter une couche supplémentaire permettant d’exposer ses objets
documentaires selon des formats prescrits par l’OAI, soit au minimum le Dublin Core non
qualifié (schéma oai_dc, publié par l’Open Archive Initiative) et, en complément, sous tout
autre format XML pertinent. à la requête ListMetadataformats d’un moissonneur,
l’entrepôt doit pouvoir décliner la liste des formats disponibles avec l’adresse à laquelle est
accessible la DTD ou le Schéma XML correspondant, car l’OAI accepte toutes les
sémantiques utilisées.
Il est donc possible de choisir, en plus du Dublin Core, un autre format XML de
données, par exemple BiblioML ou MarcXML (ou encore oai_MARC, basé sur la version
1.1 de l’OAI-PMH, qui se rapproche du Dublin Core par sa simplicité), dans le cadre d’un
projet OAI commun entre bibliothèques, à condition de restreindre le nombre des formats
autorisés : en effet, plus grande sera la diversité des formats utilisés, plus l’usager final du
service verra des restitutions hétérogènes. Toutefois, aucun format n’est aussi optimal
pour les échanges que le Dublin Core, directement pris en charge par tous les
moissonneurs OAI, qui sera par conséquent jugé suffisant pour la plupart des entrepôts
OAI.
2.1.3 Exposer en Dublin Core des données nativement structurées en
format de catalogage
Le format Dublin Core ne doit pas nécessairement se substituer aux formats de
catalogage. En effet, ce format, pour interopérable qu’il soit, ne suffit pas à tous les
besoins de signalement et de description fine de ressources spécialisées : pour des
monographies, thèses, manuscrits ouarchives, des formats MARC ou EAD peuvent être
mieux adaptés à la description intellectuelle du document. Dans ce cas, il est préférable
de ne pas cataloguer des ressources documentaires directement en Dublin Core : ce
format ne remplace alors pas la description principale, dont il n’est qu’une
" alternative " utilisée pour des besoins d’exportation et de valorisation.
Pour nombre de projets d’entrepôts OAI, il faudra donc prévoir la conversion de
notices primaires (UNIMARC par exemple) en format Dublin Core, ce qui peut s’envisager
de deux façons :
– la création manuelle, pour chaque document, d’une seconde notice en format
Dublin Core, dans une base séparée de la base MARC ;
– la duplication et la conversion à la volée, par une application logicielle,
d’ensembles de notices vers le format Dublin Core, pour qu’elles puissent être
exposées sous cette forme " en surface " de la base MARC, ce qui permet de ne
saisir qu’une seule fois les données, en format de catalogage.
Le second cas (choisi par la BnF pour Gallica), qui s’impose naturellement pour des
ensembles supérieurs à quelques dizaines de notices, nécessite une étude approfondie et
le développement d’une application spécifique à chaque catalogue. En effet, il faut tenir
compte de l’histoire, des règles et pratiques locales, ainsi que des facteurs d’hétérogénéité
de chaque catalogue, notamment pour les correspondances de champs.
Heureusement, on peut s’inspirer de guides tels que celui de la Bibliothèque du
Congrès, MARC to DC Crosswalk (et son équivalent pour le passage de Dublin Core à
MARC) et utiliser des applications libres (donc modifiables par chaque utilisateur)
existantes, par exemple un module de conversion à la volée (depuis MARC 21, en
langage de programmation PERL) disponible sur le site du Comprehensive Perl Archive
Network (CPAN) ; toutefois, de tels modules doivent être testé avec chaque base et, le cas
échéant, adapté aux contraintes particulières de formats et d’usages pour donner de bons
résultats. Des études se développent aussi pour définir les correspondances de champs
entre le Dublin Core et l’EAD (voir à ce sujet le manuel du logiciel librePLEADE). Dans
tous les cas, une phase de tests méthodique s’impose avant validation.
2.1.4 La fourniture de données
Une fois choisis les formats d’exposition, la " couche supplémentaire " comportant
ces spécifications peut être implémentée en suivant, par exemple, le canevas d’OCLC
(Online Computer Library Center), OAICat, ou en téléchargeant le logiciel open source
Fedora de l’Université Cornell.
Après avoir effectué les opérations nécessaires, il suffit, pour tester la validité du
répertoire, d’utiliser les commandes d’un moissonneur (comme exposé au paragraphe
1.2.3) ou d’avoir recours au test en ligne proposé par l’Open Archive Initiative. Ensuite,
dès que l’entrepôt contient des données exportables en format Dublin Core, il est conseillé
de s’enregistrer comme fournisseur de données auprès de l’Open Archive Initiative et de
contacter les fournisseurs de service potentiellement intéressés, qu’il s’agisse
d’agrégateurs encyclopédiques (comme OAIster, le moissonneur du Public Knowledge
Project, celui de l’ARC, Cross Archive Website de l’Université Old Dominion) ou tout autre
fournisseur de service spécialisé.
Il est à signaler qu’un module libre pour serveur Apache, mod_oai, est en cours de
développement pour permettre l’interrogation de toute base de données d’accès libre, à la
seule condition que celle-ci soit exposée en format Dublin Core.
2.2 Le moissonneur OAI
2.2.1 Quelques exemples de moissonneurs
Les moissonneurs OAI sont de plus en plus nombreux à parcourir le web,
notamment ceux des agrégateurs encyclopédiques institutionnels, dont l’un des plus
complets, OAIster (Université du Michigan), répertoriait environ 5 millions de documents
électroniques en décembre 2004. La moisson OAI peut aussi servir à constituer de grands
répertoires, comme le projet Michael de répertoire européen des fonds culturels
numériques. De même, la moisson OAI est aussi à la base de portails participant le plus
souvent d’une approche à la fois thématique, géographique et interprofessionnelle, qui
associent bibliothèques, musées, archives et associations pour la valorisation de leurs
collections : ainsi, PictureAustralia permet de valoriser le patrimoine pictural et
photographique australien numérisé.
En France, le projet de Banque numérique du savoir d’Aquitaine (BNSA) incite ses
partenaires à fournir des bases de données patrimoniales compatibles avec le protocole
OAI pour les moissonner et permettre leur valorisation, via une interface de consultation
unique, en cours de développement. On peut aussi évoquer le service Nomina du portail
France-Généalogie, qui donnera un accès commun à des millions de données
nominatives provenant de sources extrêmement hétérogènes et disséminées, ou encore
l’application OAI que développe l’Institut de recherche et de coordination
acoustique/musique (IRCAM) pour référencer les documents sonores numérisés de la
toile.
La Banque numérique du savoir d’Aquitaine (BNSA)
La BNSA développe un portail des patrimoines en région Aquitaine en collaboration
avec d’autres structures locales, partenaires et adhérents de l’association. Ce portail
(actuellement visible en version de démonstration) doit permettre l’articulation de sites
souvent préexistants sans les transformer, et fédérer leurs ressources hétérogènes en
leur offrant un point d’accès commun. Les sites visés contiennent de la documentation sur
l’Aquitaine et ne sont pas nécessairement aquitains, puisque on y trouve des notices
tirées de bases de données produites par des institutions nationales (comme la BnF pour
la part aquitaine de ses collections numérisées de périodiques, ou la Direction de
l’architecture et du patrimoine du Ministère de la culture et de la communication avec les
bases Mérimée, Palissy et Mémoire).
Une page d’accueil a été modélisée pour donner des accès cartographiques et
thématiques aux ressources, quels qu’en soient les producteurs. Les données sont
échangées conformément au protocole OAI et le format Dublin Core a été choisi comme
format de collecte des données.
2.2.2 Une moisson pour alimenter une base XML
Le moissonneur nourrit une base XML qui peut parfaitement être alimentée par
d’autres moyens, y compris en ressources " locales ", et par intervention humaine. Ainsi, le
futur portail SUDOC de l’Agence bibliographique de l’enseignement supérieur (ABES)
comportera une base XML alimentée soit par saisie directe, soit par moisson OAI, soit par
des opérations de chargement en série. Un projet similaire est mené pour le catalogue
collectif belge UNICAT. Dans le deux cas, la constitution d’une base XML pour les
ressources électroniques ne remplace pas l’interrogation de catalogues distants selon la
norme Z39-50, mais vient compléter cette architecture pour des recherches fédérées.
L’usage de l’OAI-PMH dans le portail SUDOC
Le portail SUDOC, ensemble d’outils mis au service des bibliothèques de
l’enseignement supérieur et de la recherche membres du réseau SUDOC, comportera
notamment une passerelle d’interrogation multibase et une base XML. La passerelle
d’interrogation permettra une recherche fédérée portant sur la base XML et les autres
bases internes de l’ABES (dont le catalogue SUDOC), ainsi que sur des bases
accessibles par protocoles d’échange Z39.50 ou autres (par exemple SRW/SRU) auprès
de serveurs distants.
La base XML sera alimentée par saisie directe et par des chargements en série, et
surtout par moissonnage de métadonnées grâce au protocole OAI : parmi les premiers
entrepôts moissonnés, on trouve des bases de données du CERN, de l’éditeur
scientifique Springer et de la BnF (Gallica).
Le portail SUDOC est entré fin décembre 2004 en phase de vérification de service
régulier et sera ouvert au public en 2005.
2.2.3 Implémenter un moissonneur OAI
La moisson OAI permet donc à une bibliothèque (ou à un projet associant des
bibliothèques) de collecter des métadonnées contenues dans des entrepôts OAI sur tout
l’espace Internet. Mais pour ce faire, il ne suffit pas de développer un moissonneur : il faut
encore établir, en amont, le processus de recherche et de sélection des URL des bases à
moissonner (automatique ou manuel, parfois les deux), avec la fréquence de visites et de
mise à jour pour chaque base (une fois par jour, une fois tous les quinze jours…) et
déterminer, en aval, le stockage, l’indexation, l’exploitation et l’affichage des données
(après transformation XSLT).
Pour implémenter un moissonneur OAI et les fonctionnalités complémentaires utiles,
on pourra s’aider du guide de l’Open Archives Initiative et recourir à des kits librement
diffusés tel que le kit d’implémentation de l’Université de l’Illinois.
De même, on trouve aisément en ligne plusieurs logiciels moissonneurs Open
source, comme le moissonneur java d’OCLC, OAIHarvester2, ou dans des bibliothèques
de modules (voir par exemple un module Perl complet sur le site du CPAN) ; et autres
outils utiles d’indexation, de conversion de données, d’interface client…
Enfin, la plupart des principales plates-formes de gestion de ressources numériques
" open source " telles que DSpace, permettant de collecter, d’indexer et de diffuser des
contenus numériques, sont compatibles avec le protocole OAI et permettent
d’implémenter un moissonneur ou un entrepôt.
Conclusion
Le protocole OAI permet aux bibliothèques de valoriser leurs collections numériques
sans nécessiter un lourd investissement. Si l’usage de ce protocole dans le cadre du
développement de services fédérateurs de ressources n’est pas toujours l’unique solution
envisageable, il n’en est pas moins employé, parfois combiné à d’autres principes
techniques, dans des projets français toujours plus nombreux.
Documents et liens utiles
Voici une sélection de documents et de liens pour approfondir votre connaissance du
protocole OAI et vous aider à développer vos propres services.
Sites ressources :
– Site de l’Open Archive Initiative : http://www.openarchives.org/
– Site européen de promotion de l’OAI, OA-Forum : http://www.oaforum.org
Documents indispensables :
– Spécifications du protocole OAI, version 2.0 :
http://www.openarchives.org/OAI/openarchivesprotocol.html
– Guide d’implémentation : http://www.openarchives.org/OAI/2.0/guidelines.htm
Apprentissage en ligne :
– Tutorial OAI-PMH de l’OA-Forum : http://www.oaforum.org/tutorial/
Outils de développement et de test :
– Listes d’applications Open Source :
– http://uilib-oai.sourceforge.net/
– http://www.openarchives.org/tools/tools.html
– http://www.oaforum.org/oaf_db/list_db/list_software.php
– Canevas OAICat de l’OCLC pour l’implémentation d’un entrepôt OAI :
http://www.oclc.org/research/software/oai/cat.htm
– Repository Explorater, outil de test pour les entrepôts de données OAI :
http://re.cs.uct.ac.za/
– Moissonneur de l’OCLC : http://www.oclc.org/research/software/oai/harvester2.htm
La question des droits dans le cadre de l’OAI :
– Constitution du groupe OAI-Rights :
http://www.openarchives.org/news/oairightspress030929.html
– Rapport du groupe OAI-Rights sur la transmission des droits dans le cadre de
l’OAI-PMH : http://www.openarchives.org/OAI/2.0/guidelines-rights.htm
Études, articles et conférences :
– Arms, Carolyn R. " Available and Useful: OAI at the Library of Congress ", Library
Hi Tech, Vol. 21, n°2, 2003, p. 129-139 :
http://memory.loc.gov/ammem/techdocs/libht2003.html
– Duke, Monica et Hunter, Philip.Tutorial : OAI and OAI-PMH for Beginners, CERN
Workshop on Innovations in Scholary Communications, 12-14 février 2004,
80 diapositives ppt : http://agenda.cern.ch/askArchive.php?
base=agenda&categ=a035925&id=a035925s2t4%2Ftransparencies
%2Ftutorial1duke.ppt
– Foulonneau, Muriel.Le protocole OAI-PMH : une opportunité pour le patrimoine
numérique, janvier 2002, 9 p. :
http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/guide_o
ai.pdf
– Foulonneau, Muriel.Collaborer pour de nouveaux services culturels en ligne : le
protocole OAI, protocole de collecte des métadonnées de l’Initiative des Archives
Ouvertes, janvier 2004, 61 p. :
http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/guide_o
ai.pdf
– Sévigny, Martin. Le protocole OAI et SDX2 : Réflexions sur l’OAI, le support OAI
dans SDX2, ainsi que l’ooportunité de faire des tests OAI, 19 novembre 2002, 8 p. :
http://www.nongnu.org/sdx/docs/html/others/oai.pdf
– Sévigny, Martin et Clavaud, Florence. " Vers des portails collaboratifs : le
protocole OAI-PMH et les archives ", Culture et Recherche, n°103, octobrenovembre-décembre 2004, p. 20-21 :
http://www.culture.gouv.fr/culture/editions/r-cr/cr103.pdf
– Young, Jeffrey A., Van de Sompel, Herbert, Hickey, Thomas B. " Using the OAIPMH… Differently ", D-Lib Magazine, Vol. 9, n°7/8, juillet-août 2003 :
http://www.dlib.org/dlib/july03/young/07young.html
Réactions et comptes-rendus
L’intérêt de cette note réside aussi dans les expériences que vous avez pu faire
autour du protocole OAI. Nous vous invitons à nous les faire partager : vos commentaires
pourront être ajoutés à cette rubrique.
Contact : [email protected]
Glossaire
La source principale de ce glossaire est l'article de Muriel Foulonneau, Collaborer
pour de nouveaux services culturels en ligne. Le protocole OAI, protocole de collecte de
métadonnées de l’Initiative des Archives Ouvertes, janvier 2004, cité ci-dessus.
agrégateur
Un agrégateur rassemble les métadonnées provenant de plusieurs fournisseurs de
données et les rend accessibles dans un entrepôt OAI.
architecture distribuée ou répartie
Une architecture est dite distribuée ou répartie si les données nécessaires à une
application (ou service) sont localisées dans plusieurs emplacements.
Dublin Core
Créé en 1995, le Dublin Core est une norme de description bibliographique, conçue au
départ pour s’appliquer aux documents électroniques et facilement encodable en XML : il
définit des métadonnées génériques et développe des outils pour implémenter des
métadonnées dans les ressources.. Sa sémantique a été établie par un consensus
international de professionnels provenant de diverses disciplines, telles que la
bibliothéconomie, l'informatique, le balisage de textes, la communauté muséologique et
d'autres domaines connexes. Le Dublin Core non qualifié repose sur quinze éléments de
base répétables : title, creator, subject, description, publisher, contributor, date, type,
format, identifier, source, language, relation, coverage, rights, audience. Le Dublin Core
qualifié est hiérarchisé et tolère quelques enrichissements.
enregistrement (record)
Le concept d’enregistrement désigne une représentation XML concrète de métadonnées
issues d’un item (objet documentaire), dans un format compatible avec le protocole OAI.
Plusieurs enregistrements (formats DC non qualifié, DC qualifié, MarcXML…) peuvent être
produits pour un même item.
entrepôt OAI (repository)
Base de métadonnées constituée par un fournisseur de données. Les métadonnées y sont
disponibles dans différents formats afin de répondre à différents types de demandes.
entrepôt statique
Une version simplifiée des entrepôts OAI, les entrepôts statiques rassemblent tous les
enregistrements en un seul fichier XML généré une seule fois à partir d’un système
source, et répondent aux requêtes OAI.
fournisseur de données
Le fournisseur de données détient des contenus (des métadonnées) et les met à la
disposition d’un fournisseur de service pour la réalisation d’une application. Il crée un
entrepôt de métadonnées OAI.
fournisseur de service
Le fournisseur de service lance un programme (le moissonneur) pour collecter les
métadonnées d’un ou plusieurs fournisseur(s) de données et les rassemble (agrège) pour
créer un service (application).
identifiant (identifier)
L’identifiant est une clé décrivant un document de manière univoque. Chaque entrepôt doit
pouvoir associer un identifiant unique à chaque item qu’il contient.
interopérabilité
L’interopérabilité est la capacité de deux systèmes à dialoguer et à interagir.
L’interopérabilité technique permet à des systèmes de communiquer grâce à des
protocoles et langages similaires ou pour lesquels il existe une procédure d’équivalence.
L’interopérabilité sémantique est possible lorsque les métadonnées sont similaires ou
comprennent des liens d’équivalences car elles représentent les mêmes concepts.
L’interopérabilité syntaxique suppose que les métadonnées ont une syntaxe similaire ou
qu’une procédure d’équivalence existe. L’interopérabilité organisationnelle suppose que
les modes d’organisation soient similaires et que les personnes qui assurent la
maintenance des données aient des fonctions et des qualifications comparables.
item
L’item est l’objet documentaire qui décrit une ressource. L’item est générateur
d’enregistrements de métadonnées qui pourront être échangés grâce au protocole OAI, à
la seule condition qu’à chaque item puisse être associé un identifiant unique au sein de
son entrepôt.
lot OAI (set)
Un lot ou ensemble OAI est un groupe d’items ou éléments définis dans l’entrepôt. Un
item peut appartenir à plusieurs lots. Les lots OAI peuvent être eux-mêmes divisés en
sous-lots.
métadonnées
Les métadonnées sont des " données sur les données ", c’est-à-dire un ensemble de
caractères externes ou descripteurs d’un document, par exemple son auteur, sa date de
création, son format… Une notice bibliographique est elle-même un ensemble de
métadonnées.
moissonneur
Programme lancé par le fournisseur de service pour la collecte de métadonnées auprès
d’un ou plusieurs entrepôts OAI.
moisson sélective
Une moisson ou collecte de métadonnées est dite sélective lorsque le moissonneur
spécifie un ou plusieurs ensembles qu’il souhaite collecter et ne rassemble pas toutes les
métadonnées de l’entrepôt.
normaliseur
Un normaliseur est une application d’un fournisseur de service ou d’un agrégateur, qui
retraite les données agrégées pour les rendre utilisables par le service.
Open Archive Initiative
L’Open Archive Initiative, créée par la convention de Santa Fé (Nouveau Mexique) en
1999, pour promouvoir le mouvement des archives ouvertes, développe un ensemble de
protocoles communs et des standards d’interopérabilité facilitant la diffusion des contenus
de documents.
protocole
Un protocole est une série de questions posées par une machine et auxquelles une autre
machine peut effectuer une série de réponses. Un système qui comprend et utilise ce
langage commun est compatible avec le protocole. Le protocole OAI définit que les
questions et réponses sont encapsulées dans des balises XML et transportées par le
protocole HTTP du World Wide Web.
ressource
Le terme de ressources désigne les documents de toutes natures stockés dans des bases
de données. Le protocole OAI ne s’intéresse pas à la ressource elle-même, mais à l’objet
documentaire ou item qui la décrit au sein d’un entrepôt OAI.
schéma de métadonnées
Un modèle de données est un ensemble de champs ou éléments qui permettent de
décrire une ressource. Il est exprimé sous la forme d’un certain nombre d’éléments et de
règles syntaxiques qui peuvent être encodées en SGML (DTD) ou en XML (DTD ou
schéma XML) ou simplement sous la forme d’un texte normatif.
système source
Le système source est la base de données ou le site Internet existant qui contient les
métadonnées. L’entrepôt OAI est construit à partir du système source.
François NAWROCKI
Ministère de la culture et de la communication
Direction du livre et de la lecture
Bureau des politiques documentaires
Mise en ligne le 28 janvier 2005.
Dernière mise à jour le 15 février 2005
Téléchargement