Données du Sudoc dans theses.fr : savoir générer et exploiter les

publicité
Données du Sudoc dans theses.fr :
savoir générer et exploiter les rapports
d'erreurs de chargement
Description
Public
génération et l'exploitation des rapports
d'erreurs de chargement des données du Sudoc
dans theses.fr
Personnels chargés du catalogage des thèses
Intervenants
Isabelle Mauger Perez, responsable de theses.fr
La formation débutera à 11h, merci de votre patience…
Attention : La session sera enregistrée afin d'être diffusée sur notre plateforme d'autoformation http://moodle.abes.fr.
En rejoignant cette session, vous consentez à ces enregistrements.
PLAN
•
•
•
•
Rappel du contexte
L’algorithme
Générer un rapport dynamique
Engager un chantier de correction
RAPPEL DU CONTEXTE
L’ « écosystème thèses » géré par
l’ABES
Production
------------Consultation
Enjeux de theses.fr
• Exhaustivité du signalement des thèses de
doctorat française soutenues depuis 1985
• Regrouper toutes les versions de la thèse
pour se focaliser sur l’œuvre et non les
supports : FRBRiser les données Sudoc
• Valoriser la version de soutenance validée par
le jury
L’ALGORITHME
Rappels
• Un programme scanne toutes les notices
bibliographiques du Sudoc modifiées dans la journée
et enchaine une série de tests :
– repère les notices décrivant des thèses de doctorat françaises
– contrôle la qualité de la notice décrivant la version de soutenance
– repère ou déduit les notices décrivant vers d’autres versions de la
thèse
– contrôle la qualité des liens entre notices
• Le résultat : pour chaque notice de thèse scannée
– l’appartenance à une famille et la place dans la famille
– les résultats de chaque test
– un marqueur : OK (prête à être chargée) / KO (doit être modifiée pour
être chargée dans theses.fr)
Les différents types de tests
• Des tests servant de filtres pour déterminer si telle ou telle notice
relève du périmètre de theses.fr
⇒ géré par l’ABES
• Des tests détectant des erreurs bloquantes empêchant le
chargement des données dans le Sudoc
⇒ notices à corriger
• Des tests détectant des incohérences (erreurs non bloquantes)
⇒ notices à améliorer
• Cf. documentation : Annexe : batterie de tests utilisée par
l’algorithme de chargement des données du Sudoc dans theses.fr
Les tests de l’algorithme évaluant la
qualité des notices (1/3)
Tests indispensables à l’identification univoque
de l’œuvre-thèse
• le numéro national de thèse
– Présence (test 10, test 12, test 51)
– Structure (test 13)
– Unicité (test 52)
Les tests de l’algorithme évaluant la
qualité des notices (2/3)
Tests sur les erreurs manifestes de catalogage
• L’auteur
– Présence d’une 700 (test 61)
• Incohérence dans les supports
– Incompatibilité entre une notice Aa et la présence
d’une zone 856 ou E856 (test 60)
Les tests de l’algorithme évaluant la
qualité des notices (3/3)
Tests indispensables au bon fonctionnement des
facettes dans theses.fr
• La note de thèse
– Présence de l’établissement de soutenance 328$e (test 53)
– Présence de la discipline 328$c (test 54)
• Le directeur de thèse
– Présence d’une 702 (test 56)
• Le code de domaine TEF
– Présence (test 57) et structure (test 58) d’une 686$a$2TEF
Les tests de l’algorithme évaluant les
liens entre notices
Tests indispensables à la FRBRisation
• Une thèse originelle ne doit pas contenir de lien vers une
autre thèse originelle (test 5)
• Une notice de thèse originelle ne doit pas contenir de
lien 455 (test 6)
• Une notice originelle ne peut être liée qu’à une et une
seule notice de thèse reproduite sur microfiche (test 62)
• Une notice de thèse non originelle ne doit pas pointer
vers une notice décrivant l'édition commerciale de la
thèse (test 20)
Les tests de l’algorithme
non bloquants
• Une notice de thèse originelle contenant un
résumé devrait contenir un qualificatif de la
langue des résumés en 101$d. (test 59)
GÉNÉRER UN RAPPORT
DYNAMIQUE
Principes
• Manipulation à faire : une url à copier coller dans
un navigateur
– Au préalable, passer des paramètres dans l’url pour
personnaliser la requête
• Le résultat : un fichier .csv
– À enregistrer en local sur son poste
– À modifier comme on veut (tri..)
– Pour servir de feuille de route pour des corrections à
faire dans WinIBW
Exemple d’un rapport dynamique (1/3)
Exemple d’un rapport dynamique (2/3)
Date et heure de génération du rapport dynamique
url de génération du rapport dynamique
Intitulés des colonnes cf. documentation
Un rapport a une durée de vie de 24h car le programme d’analyse
des données du Sudoc pour leur chargement dans theses.fr tourne
chaque nuit.
Des notices présentes dans un rapport généré le jour j peuvent ne
plus être présentes dans le rapport généré le jour j+1 car elles
auront fait l’objet de corrections entre temps ; de nouvelles
notices peuvent par contre être présentes.
Exemple d’un rapport dynamique (3/3)
Le rapport dynamique peut être retravaillé dans un
tableur
• ajout / suppression de colonnes
• tri
• mise en forme…
Comprendre le fonctionnement du
webservice AlgoSudoc
• Une url d’appel du WS:
http//www.theses.fr/AlgoSudoc?utilisateur=reseau
• À compléter par des paramètres
– rechercher les erreurs bloquantes &type=erreur ou les améliorations
&type=amelioration
– limiter aux thèses soutenues à partir d’une année &annee
– limiter aux thèses soutenues dans un établissement de soutenance en utilisant
le code court &codeEtab
– limiter aux notices localisées dans telle bibliothèque &rcr
– rechercher les résultats d’un test en particulier &etat
– trier les résultats &sort
– limiter le nombre de résultats remontés &rownum
• Reportez-vous à la documentation
Télécharger le fichier .csv
• Le téléchargement du fichier peut se faire
différemment selon la configuration de
l’ordinateur et du navigateur que vous utilisez.
Exemple : Chrome
• En bas du navigateur, à gauche et à droite
Exemple : Firefox
• Un pop-up qui propose le programme grâce auquel
on peut ouvrir le fichier .csv
Exemple : Internet Explorer
• Un pop-up qui propose le programme grâce auquel
on peut ouvrir le fichier .csv
Exemple : Opera
• En haut à droite, derrière l’icône téléchargements
Exemple : Safari
• Dans une fenêtre téléchargements, un pop-up
DEMO
ENGAGER UN CHANTIER DE
CORRECTION
Quelques conseils
• Commencez par traiter les erreurs bloquantes plutôt
que les améliorations.
• Quand vous modifiez une notice, ne vous contentezpas de corriger selon le rapport dynamique
– relecture globale de la notice
– complétude et exactitude des liens (entre notices
bibliographiques et aux autorités)
• Vous pouvez informer l’ABES de l’avancée de vos
corrections.
En résumé
• Toutes les notices du Sudoc décrivant des thèses de doctorat
françaises soutenues depuis 1985 quel que soit le support matériel
de la thèse ont vocation à être versées dans theses.fr.
• Mais certaines notices n’ont pas le niveau de qualité suffisant pour
être chargées dans theses.fr.
• L’ABES met à disposition des établissements dans un rapport
dynamique les listes de PPN concernés et suggère les interventions à
faire.
• Les rapports dynamiques sont générés à partir d’un webservice
AlgoSudoc : l’url de génération peut être paramétrée.
• L’ABES vous laisse libre d’organiser le travail de correction comme
vous l’entendez.
Téléchargement