Données du Sudoc dans theses.fr : savoir générer et exploiter les rapports d'erreurs de chargement Description Public génération et l'exploitation des rapports d'erreurs de chargement des données du Sudoc dans theses.fr Personnels chargés du catalogage des thèses Intervenants Isabelle Mauger Perez, responsable de theses.fr La formation débutera à 11h, merci de votre patience… Attention : La session sera enregistrée afin d'être diffusée sur notre plateforme d'autoformation http://moodle.abes.fr. En rejoignant cette session, vous consentez à ces enregistrements. PLAN • • • • Rappel du contexte L’algorithme Générer un rapport dynamique Engager un chantier de correction RAPPEL DU CONTEXTE L’ « écosystème thèses » géré par l’ABES Production ------------Consultation Enjeux de theses.fr • Exhaustivité du signalement des thèses de doctorat française soutenues depuis 1985 • Regrouper toutes les versions de la thèse pour se focaliser sur l’œuvre et non les supports : FRBRiser les données Sudoc • Valoriser la version de soutenance validée par le jury L’ALGORITHME Rappels • Un programme scanne toutes les notices bibliographiques du Sudoc modifiées dans la journée et enchaine une série de tests : – repère les notices décrivant des thèses de doctorat françaises – contrôle la qualité de la notice décrivant la version de soutenance – repère ou déduit les notices décrivant vers d’autres versions de la thèse – contrôle la qualité des liens entre notices • Le résultat : pour chaque notice de thèse scannée – l’appartenance à une famille et la place dans la famille – les résultats de chaque test – un marqueur : OK (prête à être chargée) / KO (doit être modifiée pour être chargée dans theses.fr) Les différents types de tests • Des tests servant de filtres pour déterminer si telle ou telle notice relève du périmètre de theses.fr ⇒ géré par l’ABES • Des tests détectant des erreurs bloquantes empêchant le chargement des données dans le Sudoc ⇒ notices à corriger • Des tests détectant des incohérences (erreurs non bloquantes) ⇒ notices à améliorer • Cf. documentation : Annexe : batterie de tests utilisée par l’algorithme de chargement des données du Sudoc dans theses.fr Les tests de l’algorithme évaluant la qualité des notices (1/3) Tests indispensables à l’identification univoque de l’œuvre-thèse • le numéro national de thèse – Présence (test 10, test 12, test 51) – Structure (test 13) – Unicité (test 52) Les tests de l’algorithme évaluant la qualité des notices (2/3) Tests sur les erreurs manifestes de catalogage • L’auteur – Présence d’une 700 (test 61) • Incohérence dans les supports – Incompatibilité entre une notice Aa et la présence d’une zone 856 ou E856 (test 60) Les tests de l’algorithme évaluant la qualité des notices (3/3) Tests indispensables au bon fonctionnement des facettes dans theses.fr • La note de thèse – Présence de l’établissement de soutenance 328$e (test 53) – Présence de la discipline 328$c (test 54) • Le directeur de thèse – Présence d’une 702 (test 56) • Le code de domaine TEF – Présence (test 57) et structure (test 58) d’une 686$a$2TEF Les tests de l’algorithme évaluant les liens entre notices Tests indispensables à la FRBRisation • Une thèse originelle ne doit pas contenir de lien vers une autre thèse originelle (test 5) • Une notice de thèse originelle ne doit pas contenir de lien 455 (test 6) • Une notice originelle ne peut être liée qu’à une et une seule notice de thèse reproduite sur microfiche (test 62) • Une notice de thèse non originelle ne doit pas pointer vers une notice décrivant l'édition commerciale de la thèse (test 20) Les tests de l’algorithme non bloquants • Une notice de thèse originelle contenant un résumé devrait contenir un qualificatif de la langue des résumés en 101$d. (test 59) GÉNÉRER UN RAPPORT DYNAMIQUE Principes • Manipulation à faire : une url à copier coller dans un navigateur – Au préalable, passer des paramètres dans l’url pour personnaliser la requête • Le résultat : un fichier .csv – À enregistrer en local sur son poste – À modifier comme on veut (tri..) – Pour servir de feuille de route pour des corrections à faire dans WinIBW Exemple d’un rapport dynamique (1/3) Exemple d’un rapport dynamique (2/3) Date et heure de génération du rapport dynamique url de génération du rapport dynamique Intitulés des colonnes cf. documentation Un rapport a une durée de vie de 24h car le programme d’analyse des données du Sudoc pour leur chargement dans theses.fr tourne chaque nuit. Des notices présentes dans un rapport généré le jour j peuvent ne plus être présentes dans le rapport généré le jour j+1 car elles auront fait l’objet de corrections entre temps ; de nouvelles notices peuvent par contre être présentes. Exemple d’un rapport dynamique (3/3) Le rapport dynamique peut être retravaillé dans un tableur • ajout / suppression de colonnes • tri • mise en forme… Comprendre le fonctionnement du webservice AlgoSudoc • Une url d’appel du WS: http//www.theses.fr/AlgoSudoc?utilisateur=reseau • À compléter par des paramètres – rechercher les erreurs bloquantes &type=erreur ou les améliorations &type=amelioration – limiter aux thèses soutenues à partir d’une année &annee – limiter aux thèses soutenues dans un établissement de soutenance en utilisant le code court &codeEtab – limiter aux notices localisées dans telle bibliothèque &rcr – rechercher les résultats d’un test en particulier &etat – trier les résultats &sort – limiter le nombre de résultats remontés &rownum • Reportez-vous à la documentation Télécharger le fichier .csv • Le téléchargement du fichier peut se faire différemment selon la configuration de l’ordinateur et du navigateur que vous utilisez. Exemple : Chrome • En bas du navigateur, à gauche et à droite Exemple : Firefox • Un pop-up qui propose le programme grâce auquel on peut ouvrir le fichier .csv Exemple : Internet Explorer • Un pop-up qui propose le programme grâce auquel on peut ouvrir le fichier .csv Exemple : Opera • En haut à droite, derrière l’icône téléchargements Exemple : Safari • Dans une fenêtre téléchargements, un pop-up DEMO ENGAGER UN CHANTIER DE CORRECTION Quelques conseils • Commencez par traiter les erreurs bloquantes plutôt que les améliorations. • Quand vous modifiez une notice, ne vous contentezpas de corriger selon le rapport dynamique – relecture globale de la notice – complétude et exactitude des liens (entre notices bibliographiques et aux autorités) • Vous pouvez informer l’ABES de l’avancée de vos corrections. En résumé • Toutes les notices du Sudoc décrivant des thèses de doctorat françaises soutenues depuis 1985 quel que soit le support matériel de la thèse ont vocation à être versées dans theses.fr. • Mais certaines notices n’ont pas le niveau de qualité suffisant pour être chargées dans theses.fr. • L’ABES met à disposition des établissements dans un rapport dynamique les listes de PPN concernés et suggère les interventions à faire. • Les rapports dynamiques sont générés à partir d’un webservice AlgoSudoc : l’url de génération peut être paramétrée. • L’ABES vous laisse libre d’organiser le travail de correction comme vous l’entendez.