Le protocole OAI et ses usages en bibliothèque Qu’est-ce que le protocole OAI ? L'OAI-PMH (Open Archives Initiative’s Protocol for Metadata Harvesting) ou protocole OAI facilite l’échange de données entre des fournisseurs de données (par exemple des bibliothèques ou des musées...) et un fournisseur de service (qui peut être aussi une bibliothèque, un centre de documentation, un portail thématique ou local désirant rassembler des données). Ce protocole d’échange permet de créer, d’alimenter et de tenir à jour, par des procédures automatisées, des réservoirs d’enregistrements qui signalent, décrivent et rendent accessibles des documents, sans les dupliquer ni modifier leur localisation d’origine. Grâce au protocole OAI, une bibliothèque agissant en tant que fournisseur de données a la possibilité d’offrir une visibilité accrue à ses documents, notamment à ses publications électroniques ou à ses fonds spécialisés. Réciproquement, en tant que fournisseur de service, une bibliothèque peut réaliser une base de données ou un portail documentaire dans son domaine de spécialité ou sur un thème quelconque, en collectant les données descriptives de ressources et documents de tous types, accessibles sur l’Internet dans des entrepôts OAI. Enfin, le protocole OAI permet de faire communiquer entre elles des bases de données diverses et hétérogènes, et donc de réaliser des partenariats entre plusieurs établissements que rapprochent leurs collections (complémentarité des fonds) ou leurs publics (services culturels d’une même collectivité). Sommaire 1) Un protocole simple et interopérable pour le partage des données..................................2 1.1 Histoire et objectif du protocole OAI............................................................................2 1.2 Principes fondamentaux du protocole OAI .................................................................2 1.2.1 Concepts mis en oeuvre.......................................................................................2 1.2.2 Principes organisationnels ..................................................................................3 1.2.3 Aspects techniques de la communication entre moissonneur et entrepôt...........5 2) Concevoir des services OAI en bibliothèque.....................................................................6 2.1 L’entrepôt OAI..............................................................................................................6 2.1.1 Quelques exemples d’entrepôts OAI...................................................................6 2.1.2 Le choix du format d’exposition des données......................................................7 2.1.3 Exposer en Dublin Core des données nativement structurées en format de catalogage.....................................................................................................................8 2.1.4 La fourniture de données.....................................................................................8 2.2 Le moissonneur OAI....................................................................................................9 2.2.1 Quelques exemples de moissonneurs.................................................................9 2.2.2 Une moisson pour alimenter une base XML......................................................10 2.2.3 Implémenter un moissonneur OAI.....................................................................10 Conclusion............................................................................................................................11 Documents et liens utiles.....................................................................................................11 Réactions et comptes-rendus..............................................................................................12 Glossaire..............................................................................................................................13 1) Un protocole simple et interopérable pour le partage des données 1.1 Histoire et objectif du protocole OAI L’OAI-PMH a été élaboré par l’Open Archive Initiative (à l’issue de la Convention de Santa Fe, 1999) pour faciliter la description et la diffusion des métadonnées d’articles scientifiques disponibles en accès ouvert sur Internet, notamment dans des répertoires de pré-publications. Il s’est vite révélé très adapté au partage de métadonnées de documents scientifiques ou culturels, présentes dans des ensembles de ressources homogènes ou hétérogènes, plus ou moins réparties. Après une phase d’expérimentation, le protocole a atteint une certaine stabilité depuis juin 2002, avec sa version 2, considérée comme la spécification définitive. Ce protocole permet : – d’abattre des barrières du " web invisible " en rendant possible le signalement de ressources non accessibles aux moteurs de recherche ; – de faciliter l’interopérabilité des ressources documentaires culturelles, sans duplication ni déchargement des documents numériques primaires ; – de mettre à jour simplement et automatiquement des métadonnées collectées et des liens, en répercutant les dernières modifications des réservoirs sources, sans copier à nouveau l’intégralité des données (la charge n’en étant que plus légère pour les serveurs) ; – d’encourager l’utilisation d’un format de description assez générique pour les besoins transdisciplinaires, même les plus simples, sans interdire des spécifications adaptées à des besoins plus spécialisés ; – d'intégrer, de ce fait, des ressources d’origine diverses, dans des traditions descriptives propres, sans empêcher le maintien parallèle de ces traditions pour d’autres usages. 1.2 Principes fondamentaux du protocole OAI On trouvera les spécifications complètes du protocole sur le site de l’OAI, à l’adresse suivante : http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm 1.2.1 Concepts mis en oeuvre Le protocole OAI s’appuie sur quelques concepts documentaires simples : – la ressource, qui est le document-objet décrit, réel (exemple : un livre) ou virtuel (une image numérique, un texte électronique) ; – l’item, qui est la fiche ou la notice informatique décrivant cet objet (exemple : une notice bibliographique en format UNIMARC), et qui contient ou génère des métadonnées échangeables pour le protocole OAI, à la seule condition qu’un identifiant unique, construit selon les recommandations de l’Open Archive Initiative, puisse être attribué à l’item dans la base qui le contient ; – l’enregistrement (record), qui est un ensemble de métadonnées extraites d’un item dans un format XML, et qui fait l’objet de l’échange entre l’entrepôt et le moissonneur (exemple : la description du livre en format BiblioML ou Dublin Core) ; il y a autant d’enregistrements possibles par item que de formats dans lesquels l’entrepôt est moissonnable ; – de manière optionnelle, chacun des items peut relever d’un ou de plusieurs ensembles ou lots (sets), définis par le producteur de l’entrepôt pour permettre une moisson " en bloc " de la totalité des items relatifs à un type de support ou à un thème particulier (par exemple les périodiques, l'Histoire de l'Alsace ou la division 320-Sciences politiques de la classification Dewey). Principes conceptuels de l'OAI-PMH 1.2.2 Principes organisationnels Dans ce contexte, le protocole définit le langage par lequel communiquent le fournisseur de données (entrepôt) et le fournisseur de services (agrégateur), qui rassemble des données collectées par un moissonneur. Pour alimenter l'agrégateur, le moissonneur visite plusieurs entrepôts, qu'il doit interroger massivement une seule fois ou en plusieurs étapes, pour extraire les enregistrements des items qui l'intéressent. Après la collecte, le moissonneur dépose les données dans une base que le fournisseur de services rend accessible à ses clients. L'interrogation de cette base est directe et ne sollicite pas les entrepôts d'origine. En effet, l'utilisateur final interroge uniquement le réservoir de notices, constitué par moisson, du fournisseur de service, qui lui retourne en réponse la liste des notices pertinents. Ces notices proposent notamment un lien hypertexte vers le document primaire, seulement accessible sur le serveur du fournisseur de données : en activant ce lien, l'utilisateur arrive sur le site et dans l'environnement graphique de l’institution productrice, dont le serveur n'est finalement sollicité que pour la fourniture de ce seul document. Architecture fonctionnelle de services OAI 1.2.3 Aspects techniques de la communication entre moissonneur et entrepôt Le moissonneur soumet des requêtes XML aux entrepôts en recourant aux protocoles http et url, universellement répandus, pour une interopérabilité optimale ; les réponses qu'il reçoit sont également en syntaxe XML. Les requêtes, dites " verbes" ou " commandes", auxquelles correspondent un ensemble de réponses standardisées, sont au nombre de six. Elles permettent au moissonneur : – de vérifier si le service désigné est un répertoire OAI (Identify) ; – de demander la liste des formats de métadonnées que l’entrepôt est capable de fournir (ListMetadataformats) ; – d’obtenir, le cas échéant, la liste des ensembles (par exemple thématiques) formés par le fournisseur de données (ListSets) ; – d’obtenir la liste des identifiants et des dates de dernière modification des items disponibles dans la base (ListIdentifiers) ; – de collecter l’information d’un item spécifique (GetRecord) ; – de récupérer en bloc l’ensemble des items d’un répertoire (ListRecords). Ces requêtes permettent de définir les caractéristiques de l’exploitation que chaque moissonneur fait d’un entrepôt : une fois qu’un entrepôt et son offre documentaire sont identifiés, il appartient au responsable du moissonneur (ou au moissonneur lui-même, automatiquement, selon des critères prédéfinis) de choisir les lots (" sets ") ou la liste des données à collecter, puis la fréquence des visites du moissonneur, qui donneront lieu à des collectes ciblées après chaque mise à jour des données cibles de la collecte. L’OAI-PMH et la norme Z39-50 Au contraire de portails fédérateurs de ressources ou de catalogues collectifs reposant sur la norme d’interrogation Z39-50, une base de donnée constituée par moissons OAI permet au fournisseur de service de rendre accessibles des données descriptives de documents sans faire peser une lourde charge sur le serveur de chaque fournisseur de données ; de plus, le temps de réponse au client final dépend du seul serveur du fournisseur de service (et non du serveur le moins performant de l’ensemble des fournisseurs de données, comme c’est le cas dans une architecture Z3950). En revanche, les données exploitées par le fournisseur de service sont le reflet d’un état figé des données collectées, en date du dernier passage du moissonneur, alors qu’une interrogation simultanée de plusieurs bases par transfert Z39-50 permet d’afficher les données en temps réel. Par conséquent, l’OAI-PMH n’est pas toujours la solution organisationnelle et technique la plus pertinente pour des entrepôts dont une part importante du contenu est soumis à des modifications très fréquentes, par exemple quotidiennes (actualités, œuvres vivantes…). 2) Concevoir des services OAI en bibliothèque Pour une bibliothèque cherchant à valoriser et à diffuser largement son offre de contenus électroniques en ligne, la constitution d’un entrepôt OAI est une solution simple à mettre en œuvre. D’autre part, une bibliothèque cherchant un moyen de collecter l’information en ligne pertinente sur un sujet ou un domaine donné trouvera avantage à concevoir et à développer un moissonneur OAI. Le protocole OAI peut donc être utilisé pour des projets très différents, l’une et l’autre approche pouvant être combinées au sein d’un même projet. Quelques SIGB et logiciels de gestion électronique de documents (par exemple ExLibris) ou outils de recherche pour documents XML (plate-forme SDX depuis la version 2.2) commencent à proposer des services OAI. Toutefois, même sans de tels logiciels, de nombreux outils libres répertoriés sur le site de l’OAI, peuvent suffire au développement de services OAI. Voici quelques exemples pouvant servir de références et quelques conseils pour la constitution d’un entrepôt de données moissonnables selon le protocole OAI et pour l’implémentation d’un moissonneur. 2.1 L’entrepôt OAI Avant de créer un entrepôt OAI, tout fournisseur de données potentiel doit choisir s’il veut rendre ses données accessibles à tous les moissonneurs OAI qui parcourent la toile ; si tel est le cas, il adopte un modèle partagé d’entrepôt. En revanche, les fournisseurs de données ne souhaitant pas diffuser leurs métadonnées au-delà d’un cercle restreint de clients bien identifiés, qui sont leurs partenaires dans le cadre d’un même projet et qui leur sont liés par des accords ou par une charte, peuvent adopter un modèle réservé d’entrepôt : seul l’ajout de restrictions d’accès aux contenus différencie ce modèle d’entrepôt du précédent. Les entrepôts de modèle réservé sont le plus souvent conçus pour alimenter un seul fournisseur de service, par exemple un catalogue collectif, mais ce modèle peut aussi correspondre à une étape intermédiaire d’un projet et se transformer ensuite en entrepôt partagé. 2.1.1 Quelques exemples d’entrepôts OAI De nombreux entrepôts OAI ont été spécifiquement développés pour l’archivage et la diffusion en ligne des prépublications d’articles scientifiques (E-prints de l’Université de Southampton, ou encore Pubmedcentral) ou des thèses (projet Archimède de l’Université de Laval, dont le logiciel est librement disponible). C’est aussi le cas en France, où la plupart des entrepôts OAI sont consacrés à des articles scientifiques (Aladin : Accès Libre aux Archives du Dépôt Institutionnel Numérique, de la Maison des Sciences de l’Homme-Alpes développé avec DSpace) ou à des thèses en ligne, comme le projet Cyberthèses de l’Université Lyon-2 ou encore les thèses en ligne des grandes écoles de Paris, Pastel. On trouve également quelques entrepôts OAI voués à l’archivage et à la valorisation de collections documentaires spécifiques, comme l'archive de parole du LACITO (Langues et civilisations de tradition orale) au CNRS. En dehors de ces domaines, rares sont encore les entrepôts conçus par les bibliothèques françaises. Ils permettraient pourtant d’améliorer le signalement des grands ensembles d’images et de dossiers documentaires mis en ligne par les bibliothèques françaises. à la suite d’autres grandes bibliothèques nationales, comme la Bibliothèque du Congrès qui a rendu moissonnable une grande partie de ses collections numériques d’American Memory, la Bibliothèque nationale de France achève la production d’un entrepôt accessible aux moissonneurs OAI pour exporter les notices, dans une version en format Dublin Core, des monographies de sa bibliothèque numérique Gallica. L’OAI-PMH à la Bibliothèque nationale de France L’entrepôt OAI que la BnF développe pour la bibliothèque numérique Gallica (serveur accessible aux moissonneurs à l’adresse suivante : http://oai.bnf.fr/oai2) sera moissonnable par lots correspondant notamment aux dossiers en ligne et à une sélection de classes de la classification Dewey ; par la suite, l’expérience sera étendue aux périodiques, cartes et plans et autres documents de la bibliothèque numérique, et peutêtre hors du champ de celle-ci, avec les dossiers pédagogiques et les expositions en ligne. D’autres bibliothèques partenaires, comme celles du Conservatoire national des Arts et métiers et la Bibliothèque interuniversitaire de médecine, envisagent de mettre en place des serveurs OAI pour échanger des notices avec la BnF pour les collections numériques. 2.1.2 Le choix du format d’exposition des données Rendre une base documentaire (bibliothèque d’images, base de thèses, base de prépublications ou catalogue de bibliothèque) compatible avec le protocole OAI ne demande pas de modifications profondes de sa structure ni des données qu’elle contient : il suffit d’ajouter une couche supplémentaire permettant d’exposer ses objets documentaires selon des formats prescrits par l’OAI, soit au minimum le Dublin Core non qualifié (schéma oai_dc, publié par l’Open Archive Initiative) et, en complément, sous tout autre format XML pertinent. à la requête ListMetadataformats d’un moissonneur, l’entrepôt doit pouvoir décliner la liste des formats disponibles avec l’adresse à laquelle est accessible la DTD ou le Schéma XML correspondant, car l’OAI accepte toutes les sémantiques utilisées. Il est donc possible de choisir, en plus du Dublin Core, un autre format XML de données, par exemple BiblioML ou MarcXML (ou encore oai_MARC, basé sur la version 1.1 de l’OAI-PMH, qui se rapproche du Dublin Core par sa simplicité), dans le cadre d’un projet OAI commun entre bibliothèques, à condition de restreindre le nombre des formats autorisés : en effet, plus grande sera la diversité des formats utilisés, plus l’usager final du service verra des restitutions hétérogènes. Toutefois, aucun format n’est aussi optimal pour les échanges que le Dublin Core, directement pris en charge par tous les moissonneurs OAI, qui sera par conséquent jugé suffisant pour la plupart des entrepôts OAI. 2.1.3 Exposer en Dublin Core des données nativement structurées en format de catalogage Le format Dublin Core ne doit pas nécessairement se substituer aux formats de catalogage. En effet, ce format, pour interopérable qu’il soit, ne suffit pas à tous les besoins de signalement et de description fine de ressources spécialisées : pour des monographies, thèses, manuscrits ouarchives, des formats MARC ou EAD peuvent être mieux adaptés à la description intellectuelle du document. Dans ce cas, il est préférable de ne pas cataloguer des ressources documentaires directement en Dublin Core : ce format ne remplace alors pas la description principale, dont il n’est qu’une " alternative " utilisée pour des besoins d’exportation et de valorisation. Pour nombre de projets d’entrepôts OAI, il faudra donc prévoir la conversion de notices primaires (UNIMARC par exemple) en format Dublin Core, ce qui peut s’envisager de deux façons : – la création manuelle, pour chaque document, d’une seconde notice en format Dublin Core, dans une base séparée de la base MARC ; – la duplication et la conversion à la volée, par une application logicielle, d’ensembles de notices vers le format Dublin Core, pour qu’elles puissent être exposées sous cette forme " en surface " de la base MARC, ce qui permet de ne saisir qu’une seule fois les données, en format de catalogage. Le second cas (choisi par la BnF pour Gallica), qui s’impose naturellement pour des ensembles supérieurs à quelques dizaines de notices, nécessite une étude approfondie et le développement d’une application spécifique à chaque catalogue. En effet, il faut tenir compte de l’histoire, des règles et pratiques locales, ainsi que des facteurs d’hétérogénéité de chaque catalogue, notamment pour les correspondances de champs. Heureusement, on peut s’inspirer de guides tels que celui de la Bibliothèque du Congrès, MARC to DC Crosswalk (et son équivalent pour le passage de Dublin Core à MARC) et utiliser des applications libres (donc modifiables par chaque utilisateur) existantes, par exemple un module de conversion à la volée (depuis MARC 21, en langage de programmation PERL) disponible sur le site du Comprehensive Perl Archive Network (CPAN) ; toutefois, de tels modules doivent être testé avec chaque base et, le cas échéant, adapté aux contraintes particulières de formats et d’usages pour donner de bons résultats. Des études se développent aussi pour définir les correspondances de champs entre le Dublin Core et l’EAD (voir à ce sujet le manuel du logiciel librePLEADE). Dans tous les cas, une phase de tests méthodique s’impose avant validation. 2.1.4 La fourniture de données Une fois choisis les formats d’exposition, la " couche supplémentaire " comportant ces spécifications peut être implémentée en suivant, par exemple, le canevas d’OCLC (Online Computer Library Center), OAICat, ou en téléchargeant le logiciel open source Fedora de l’Université Cornell. Après avoir effectué les opérations nécessaires, il suffit, pour tester la validité du répertoire, d’utiliser les commandes d’un moissonneur (comme exposé au paragraphe 1.2.3) ou d’avoir recours au test en ligne proposé par l’Open Archive Initiative. Ensuite, dès que l’entrepôt contient des données exportables en format Dublin Core, il est conseillé de s’enregistrer comme fournisseur de données auprès de l’Open Archive Initiative et de contacter les fournisseurs de service potentiellement intéressés, qu’il s’agisse d’agrégateurs encyclopédiques (comme OAIster, le moissonneur du Public Knowledge Project, celui de l’ARC, Cross Archive Website de l’Université Old Dominion) ou tout autre fournisseur de service spécialisé. Il est à signaler qu’un module libre pour serveur Apache, mod_oai, est en cours de développement pour permettre l’interrogation de toute base de données d’accès libre, à la seule condition que celle-ci soit exposée en format Dublin Core. 2.2 Le moissonneur OAI 2.2.1 Quelques exemples de moissonneurs Les moissonneurs OAI sont de plus en plus nombreux à parcourir le web, notamment ceux des agrégateurs encyclopédiques institutionnels, dont l’un des plus complets, OAIster (Université du Michigan), répertoriait environ 5 millions de documents électroniques en décembre 2004. La moisson OAI peut aussi servir à constituer de grands répertoires, comme le projet Michael de répertoire européen des fonds culturels numériques. De même, la moisson OAI est aussi à la base de portails participant le plus souvent d’une approche à la fois thématique, géographique et interprofessionnelle, qui associent bibliothèques, musées, archives et associations pour la valorisation de leurs collections : ainsi, PictureAustralia permet de valoriser le patrimoine pictural et photographique australien numérisé. En France, le projet de Banque numérique du savoir d’Aquitaine (BNSA) incite ses partenaires à fournir des bases de données patrimoniales compatibles avec le protocole OAI pour les moissonner et permettre leur valorisation, via une interface de consultation unique, en cours de développement. On peut aussi évoquer le service Nomina du portail France-Généalogie, qui donnera un accès commun à des millions de données nominatives provenant de sources extrêmement hétérogènes et disséminées, ou encore l’application OAI que développe l’Institut de recherche et de coordination acoustique/musique (IRCAM) pour référencer les documents sonores numérisés de la toile. La Banque numérique du savoir d’Aquitaine (BNSA) La BNSA développe un portail des patrimoines en région Aquitaine en collaboration avec d’autres structures locales, partenaires et adhérents de l’association. Ce portail (actuellement visible en version de démonstration) doit permettre l’articulation de sites souvent préexistants sans les transformer, et fédérer leurs ressources hétérogènes en leur offrant un point d’accès commun. Les sites visés contiennent de la documentation sur l’Aquitaine et ne sont pas nécessairement aquitains, puisque on y trouve des notices tirées de bases de données produites par des institutions nationales (comme la BnF pour la part aquitaine de ses collections numérisées de périodiques, ou la Direction de l’architecture et du patrimoine du Ministère de la culture et de la communication avec les bases Mérimée, Palissy et Mémoire). Une page d’accueil a été modélisée pour donner des accès cartographiques et thématiques aux ressources, quels qu’en soient les producteurs. Les données sont échangées conformément au protocole OAI et le format Dublin Core a été choisi comme format de collecte des données. 2.2.2 Une moisson pour alimenter une base XML Le moissonneur nourrit une base XML qui peut parfaitement être alimentée par d’autres moyens, y compris en ressources " locales ", et par intervention humaine. Ainsi, le futur portail SUDOC de l’Agence bibliographique de l’enseignement supérieur (ABES) comportera une base XML alimentée soit par saisie directe, soit par moisson OAI, soit par des opérations de chargement en série. Un projet similaire est mené pour le catalogue collectif belge UNICAT. Dans le deux cas, la constitution d’une base XML pour les ressources électroniques ne remplace pas l’interrogation de catalogues distants selon la norme Z39-50, mais vient compléter cette architecture pour des recherches fédérées. L’usage de l’OAI-PMH dans le portail SUDOC Le portail SUDOC, ensemble d’outils mis au service des bibliothèques de l’enseignement supérieur et de la recherche membres du réseau SUDOC, comportera notamment une passerelle d’interrogation multibase et une base XML. La passerelle d’interrogation permettra une recherche fédérée portant sur la base XML et les autres bases internes de l’ABES (dont le catalogue SUDOC), ainsi que sur des bases accessibles par protocoles d’échange Z39.50 ou autres (par exemple SRW/SRU) auprès de serveurs distants. La base XML sera alimentée par saisie directe et par des chargements en série, et surtout par moissonnage de métadonnées grâce au protocole OAI : parmi les premiers entrepôts moissonnés, on trouve des bases de données du CERN, de l’éditeur scientifique Springer et de la BnF (Gallica). Le portail SUDOC est entré fin décembre 2004 en phase de vérification de service régulier et sera ouvert au public en 2005. 2.2.3 Implémenter un moissonneur OAI La moisson OAI permet donc à une bibliothèque (ou à un projet associant des bibliothèques) de collecter des métadonnées contenues dans des entrepôts OAI sur tout l’espace Internet. Mais pour ce faire, il ne suffit pas de développer un moissonneur : il faut encore établir, en amont, le processus de recherche et de sélection des URL des bases à moissonner (automatique ou manuel, parfois les deux), avec la fréquence de visites et de mise à jour pour chaque base (une fois par jour, une fois tous les quinze jours…) et déterminer, en aval, le stockage, l’indexation, l’exploitation et l’affichage des données (après transformation XSLT). Pour implémenter un moissonneur OAI et les fonctionnalités complémentaires utiles, on pourra s’aider du guide de l’Open Archives Initiative et recourir à des kits librement diffusés tel que le kit d’implémentation de l’Université de l’Illinois. De même, on trouve aisément en ligne plusieurs logiciels moissonneurs Open source, comme le moissonneur java d’OCLC, OAIHarvester2, ou dans des bibliothèques de modules (voir par exemple un module Perl complet sur le site du CPAN) ; et autres outils utiles d’indexation, de conversion de données, d’interface client… Enfin, la plupart des principales plates-formes de gestion de ressources numériques " open source " telles que DSpace, permettant de collecter, d’indexer et de diffuser des contenus numériques, sont compatibles avec le protocole OAI et permettent d’implémenter un moissonneur ou un entrepôt. Conclusion Le protocole OAI permet aux bibliothèques de valoriser leurs collections numériques sans nécessiter un lourd investissement. Si l’usage de ce protocole dans le cadre du développement de services fédérateurs de ressources n’est pas toujours l’unique solution envisageable, il n’en est pas moins employé, parfois combiné à d’autres principes techniques, dans des projets français toujours plus nombreux. Documents et liens utiles Voici une sélection de documents et de liens pour approfondir votre connaissance du protocole OAI et vous aider à développer vos propres services. Sites ressources : – Site de l’Open Archive Initiative : http://www.openarchives.org/ – Site européen de promotion de l’OAI, OA-Forum : http://www.oaforum.org Documents indispensables : – Spécifications du protocole OAI, version 2.0 : http://www.openarchives.org/OAI/openarchivesprotocol.html – Guide d’implémentation : http://www.openarchives.org/OAI/2.0/guidelines.htm Apprentissage en ligne : – Tutorial OAI-PMH de l’OA-Forum : http://www.oaforum.org/tutorial/ Outils de développement et de test : – Listes d’applications Open Source : – http://uilib-oai.sourceforge.net/ – http://www.openarchives.org/tools/tools.html – http://www.oaforum.org/oaf_db/list_db/list_software.php – Canevas OAICat de l’OCLC pour l’implémentation d’un entrepôt OAI : http://www.oclc.org/research/software/oai/cat.htm – Repository Explorater, outil de test pour les entrepôts de données OAI : http://re.cs.uct.ac.za/ – Moissonneur de l’OCLC : http://www.oclc.org/research/software/oai/harvester2.htm La question des droits dans le cadre de l’OAI : – Constitution du groupe OAI-Rights : http://www.openarchives.org/news/oairightspress030929.html – Rapport du groupe OAI-Rights sur la transmission des droits dans le cadre de l’OAI-PMH : http://www.openarchives.org/OAI/2.0/guidelines-rights.htm Études, articles et conférences : – Arms, Carolyn R. " Available and Useful: OAI at the Library of Congress ", Library Hi Tech, Vol. 21, n°2, 2003, p. 129-139 : http://memory.loc.gov/ammem/techdocs/libht2003.html – Duke, Monica et Hunter, Philip.Tutorial : OAI and OAI-PMH for Beginners, CERN Workshop on Innovations in Scholary Communications, 12-14 février 2004, 80 diapositives ppt : http://agenda.cern.ch/askArchive.php? base=agenda&categ=a035925&id=a035925s2t4%2Ftransparencies %2Ftutorial1duke.ppt – Foulonneau, Muriel.Le protocole OAI-PMH : une opportunité pour le patrimoine numérique, janvier 2002, 9 p. : http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/guide_o ai.pdf – Foulonneau, Muriel.Collaborer pour de nouveaux services culturels en ligne : le protocole OAI, protocole de collecte des métadonnées de l’Initiative des Archives Ouvertes, janvier 2004, 61 p. : http://www.culture.gouv.fr/culture/mrt/numerisation/fr/technique/documents/guide_o ai.pdf – Sévigny, Martin. Le protocole OAI et SDX2 : Réflexions sur l’OAI, le support OAI dans SDX2, ainsi que l’ooportunité de faire des tests OAI, 19 novembre 2002, 8 p. : http://www.nongnu.org/sdx/docs/html/others/oai.pdf – Sévigny, Martin et Clavaud, Florence. " Vers des portails collaboratifs : le protocole OAI-PMH et les archives ", Culture et Recherche, n°103, octobrenovembre-décembre 2004, p. 20-21 : http://www.culture.gouv.fr/culture/editions/r-cr/cr103.pdf – Young, Jeffrey A., Van de Sompel, Herbert, Hickey, Thomas B. " Using the OAIPMH… Differently ", D-Lib Magazine, Vol. 9, n°7/8, juillet-août 2003 : http://www.dlib.org/dlib/july03/young/07young.html Réactions et comptes-rendus L’intérêt de cette note réside aussi dans les expériences que vous avez pu faire autour du protocole OAI. Nous vous invitons à nous les faire partager : vos commentaires pourront être ajoutés à cette rubrique. Contact : [email protected] Glossaire La source principale de ce glossaire est l'article de Muriel Foulonneau, Collaborer pour de nouveaux services culturels en ligne. Le protocole OAI, protocole de collecte de métadonnées de l’Initiative des Archives Ouvertes, janvier 2004, cité ci-dessus. agrégateur Un agrégateur rassemble les métadonnées provenant de plusieurs fournisseurs de données et les rend accessibles dans un entrepôt OAI. architecture distribuée ou répartie Une architecture est dite distribuée ou répartie si les données nécessaires à une application (ou service) sont localisées dans plusieurs emplacements. Dublin Core Créé en 1995, le Dublin Core est une norme de description bibliographique, conçue au départ pour s’appliquer aux documents électroniques et facilement encodable en XML : il définit des métadonnées génériques et développe des outils pour implémenter des métadonnées dans les ressources.. Sa sémantique a été établie par un consensus international de professionnels provenant de diverses disciplines, telles que la bibliothéconomie, l'informatique, le balisage de textes, la communauté muséologique et d'autres domaines connexes. Le Dublin Core non qualifié repose sur quinze éléments de base répétables : title, creator, subject, description, publisher, contributor, date, type, format, identifier, source, language, relation, coverage, rights, audience. Le Dublin Core qualifié est hiérarchisé et tolère quelques enrichissements. enregistrement (record) Le concept d’enregistrement désigne une représentation XML concrète de métadonnées issues d’un item (objet documentaire), dans un format compatible avec le protocole OAI. Plusieurs enregistrements (formats DC non qualifié, DC qualifié, MarcXML…) peuvent être produits pour un même item. entrepôt OAI (repository) Base de métadonnées constituée par un fournisseur de données. Les métadonnées y sont disponibles dans différents formats afin de répondre à différents types de demandes. entrepôt statique Une version simplifiée des entrepôts OAI, les entrepôts statiques rassemblent tous les enregistrements en un seul fichier XML généré une seule fois à partir d’un système source, et répondent aux requêtes OAI. fournisseur de données Le fournisseur de données détient des contenus (des métadonnées) et les met à la disposition d’un fournisseur de service pour la réalisation d’une application. Il crée un entrepôt de métadonnées OAI. fournisseur de service Le fournisseur de service lance un programme (le moissonneur) pour collecter les métadonnées d’un ou plusieurs fournisseur(s) de données et les rassemble (agrège) pour créer un service (application). identifiant (identifier) L’identifiant est une clé décrivant un document de manière univoque. Chaque entrepôt doit pouvoir associer un identifiant unique à chaque item qu’il contient. interopérabilité L’interopérabilité est la capacité de deux systèmes à dialoguer et à interagir. L’interopérabilité technique permet à des systèmes de communiquer grâce à des protocoles et langages similaires ou pour lesquels il existe une procédure d’équivalence. L’interopérabilité sémantique est possible lorsque les métadonnées sont similaires ou comprennent des liens d’équivalences car elles représentent les mêmes concepts. L’interopérabilité syntaxique suppose que les métadonnées ont une syntaxe similaire ou qu’une procédure d’équivalence existe. L’interopérabilité organisationnelle suppose que les modes d’organisation soient similaires et que les personnes qui assurent la maintenance des données aient des fonctions et des qualifications comparables. item L’item est l’objet documentaire qui décrit une ressource. L’item est générateur d’enregistrements de métadonnées qui pourront être échangés grâce au protocole OAI, à la seule condition qu’à chaque item puisse être associé un identifiant unique au sein de son entrepôt. lot OAI (set) Un lot ou ensemble OAI est un groupe d’items ou éléments définis dans l’entrepôt. Un item peut appartenir à plusieurs lots. Les lots OAI peuvent être eux-mêmes divisés en sous-lots. métadonnées Les métadonnées sont des " données sur les données ", c’est-à-dire un ensemble de caractères externes ou descripteurs d’un document, par exemple son auteur, sa date de création, son format… Une notice bibliographique est elle-même un ensemble de métadonnées. moissonneur Programme lancé par le fournisseur de service pour la collecte de métadonnées auprès d’un ou plusieurs entrepôts OAI. moisson sélective Une moisson ou collecte de métadonnées est dite sélective lorsque le moissonneur spécifie un ou plusieurs ensembles qu’il souhaite collecter et ne rassemble pas toutes les métadonnées de l’entrepôt. normaliseur Un normaliseur est une application d’un fournisseur de service ou d’un agrégateur, qui retraite les données agrégées pour les rendre utilisables par le service. Open Archive Initiative L’Open Archive Initiative, créée par la convention de Santa Fé (Nouveau Mexique) en 1999, pour promouvoir le mouvement des archives ouvertes, développe un ensemble de protocoles communs et des standards d’interopérabilité facilitant la diffusion des contenus de documents. protocole Un protocole est une série de questions posées par une machine et auxquelles une autre machine peut effectuer une série de réponses. Un système qui comprend et utilise ce langage commun est compatible avec le protocole. Le protocole OAI définit que les questions et réponses sont encapsulées dans des balises XML et transportées par le protocole HTTP du World Wide Web. ressource Le terme de ressources désigne les documents de toutes natures stockés dans des bases de données. Le protocole OAI ne s’intéresse pas à la ressource elle-même, mais à l’objet documentaire ou item qui la décrit au sein d’un entrepôt OAI. schéma de métadonnées Un modèle de données est un ensemble de champs ou éléments qui permettent de décrire une ressource. Il est exprimé sous la forme d’un certain nombre d’éléments et de règles syntaxiques qui peuvent être encodées en SGML (DTD) ou en XML (DTD ou schéma XML) ou simplement sous la forme d’un texte normatif. système source Le système source est la base de données ou le site Internet existant qui contient les métadonnées. L’entrepôt OAI est construit à partir du système source. François NAWROCKI Ministère de la culture et de la communication Direction du livre et de la lecture Bureau des politiques documentaires Mise en ligne le 28 janvier 2005. Dernière mise à jour le 15 février 2005