Formats de documents numériques, normalisation et documents structurés XML et quelques normes afférentes Yves Marcoux GRDS - EBSI Université de Montréal Copyright © 2007 Yves Marcoux - Reproduction interdite 1 Plan • Documents numériques, formats, normalisation • XML: – – – – – – C’est quoi? À quoi ça sert? Comment ça marche? Avantages et désavantages Normes afférentes Enjeux pour les milieux documentaires • Conclusions Copyright © 2007 Yves Marcoux - Reproduction interdite 2 Fichiers vs documents • Fichier: unité gérable par machine • Document: unité naturelle de communication entre humains • Un document peut comporter plusieurs fichiers (pages Web avec images, etc.) • Un fichier peut inclure plusieurs documents – Peu recommandé, sauf pour raisons techniques (fichiers compressés, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite 3 Format de documents numériques (1/3) • Ensemble de conventions et règles pour: – déterminer si le contenu d'un fichier est « conforme » ou non (niveau syntaxique ou lexical) – interpréter correctement les fichiers qui sont effectivement conformes (niveau sémantique) Copyright © 2007 Yves Marcoux - Reproduction interdite 4 Format de documents numériques (2/3) • Exemples: – Formats texte selon un jeu de caractères donné • ASCII pur sur 8 bits • Unicode-UTF-16-BE – Word, PowerPoint – PDF, SMIL, Jpeg, Mpeg, MP3, etc. Copyright © 2007 Yves Marcoux - Reproduction interdite 5 Format de documents numériques (3/3) • Exemple: texte ASCII pur sur 8 bits – Niveau lexical: Est-ce que tous les codes (de 8 bits) contenus dans le fichier sont des codes admissibles dans un fichier texte ASCII pur sur 8 bits? – Niveau sémantique: Quelle suite de caractères correspond aux codes contenus dans le fichier? Copyright © 2007 Yves Marcoux - Reproduction interdite 6 Traitements spéciaux • Compression sans perte (zip, etc.) • Encryption (ou chiffrement) • Applicables à tout fichier, peu importe son format • Parfaitement réversibles (sans perte) • Modifient de fait le format doivent être considérés pour l’échange de fichiers / documents Copyright © 2007 Yves Marcoux - Reproduction interdite 7 Préoccupations liées au format • accessibilité – le document est dans un format qui est compris par une communauté de lecteurs la plus grande possible • pérennité – le document demeurera accessible dans le futur • réutilisabilité – on peut récupérer un document archivé et continuer à travailler dessus pour créer un nouveau document … des documents Copyright © 2007 Yves Marcoux - Reproduction interdite 8 Normalisation • Une « spécification » est la description d'un ensemble de règles et/ou façons de faire conventionnelles • Trois types de spécifications sont pertinentes en gestion de l'information – Format (statique) – Protocole (dynamique) – Procédures pour les humains (ex.: ISO-15489 Records management) Copyright © 2007 Yves Marcoux - Reproduction interdite 9 suite • En gestion d'information numérique, les deux premiers types (formats et protocoles) sont les plus déterminants sur l'efficacité et l'efficience des systèmes automatisés • Si on vise la réutilisation de l'information et l'interopérabilité, il importe que les systèmes mis en place respectent des normes pour les formats et les protocoles Copyright © 2007 Yves Marcoux - Reproduction interdite 10 suite • HTML est un ex. de format normalisé • HTTP est un ex. de protocole normalisé • Les documents normatifs (les « spécifications » elles-mêmes) qui décrivent un format ou un protocole normalisé sont destinés aux humains: ils indiquent comment développer des produits ou systèmes qui respectent la norme, et sont donc « interopérables » Copyright © 2007 Yves Marcoux - Reproduction interdite 11 suite • Texte de Michel Dumais: « L'impact social, à mon avis, est l'impact le plus important des normes libres. Ne pas être prisonnier d'une entité commerciale décidant de l'avenir de votre information, de vos données. Avoir le choix en toutes circonstances, la possibilité de changer, de faire autrement, voilà l'enjeu des normes libres. » Karl Dubost (cité dans l'article de Michel Dumais) Copyright © 2007 Yves Marcoux - Reproduction interdite 12 Degrés de normalisation d'un format de documents numériques (1/2) • Formats « secrets » – Format interne DB/TextWorks – Interopérabilité possible via exportation / importation • Formats propriétaires – Word, WordPerfect, PDF • Normes de facto – Word, PDF, LaTeX Copyright © 2007 Yves Marcoux - Reproduction interdite 13 Degrés de normalisation d'un format de documents numériques (2/2) • Norme internationale officielle (ou de jure) – Définies et sanctionnées par une instance officielle internationale de normalisation – Ex.: SGML, HTML, XML • Norme nationale – Organismes nationaux comme ANSI, CSA – Alignement sur les normes internationales Copyright © 2007 Yves Marcoux - Reproduction interdite 14 Instances internationales de normalisation (1/2) • ISO (International Organisation for Standardization) • IEC (International Electrotechnical Comission) • W3C (World Wide Web Consortium) • ECMA International (European Computer Manufacturers Association avant 1994) Copyright © 2007 Yves Marcoux - Reproduction interdite 15 Instances internationales de normalisation (2/2) • Consortium Unicode • ITU ou UIT (Union internationale des télécommunications) Copyright © 2007 Yves Marcoux - Reproduction interdite 16 Importance de la normalisation • Être une norme de jure n'est pas tout, la reconnaissance et l'adoption dans la société sont encore plus importantes • Les spécifications normalisées sont plus stables (changent moins vite) que les spécifications guidées par des intérêts commerciaux: intéressant pour le long terme Copyright © 2007 Yves Marcoux - Reproduction interdite 17 XML, c’est quoi? • eXtensible Markup Language = Langage de balisage généralisable • Définie par le W3C en février 1998 (v1.0) W3C = World Wide Web Consortium • Format de documents numériques • Format de documents structurés • Format normalisé Copyright © 2007 Yves Marcoux - Reproduction interdite 18 Format de documents numériques • Tout comme Word, HTML, PDF, ... • Documents = fichiers (.xml) • Documents peuvent être: – imprimés, échangés, diffusés sur le Web – convertis vers autres formats (ex. PDF, HTML) – liés à d’autres documents par des liens hypertextuels Copyright © 2007 Yves Marcoux - Reproduction interdite 19 Format de documents structurés • Un format utilisant le balisage par dessus un format texte (Unicode-UTF-8) – Les documents XML sont aussi des fichiers texte Unicode-UTF-8 • Balises (à la <HTML>) identifient début et fin des éléments constitutifs du document • Un exemple: un mémo Copyright © 2007 Yves Marcoux - Reproduction interdite 20 Un mémo en XML <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Copyright © 2007 Yves Marcoux - Reproduction interdite 21 mémo auteur destinataires "Julia Royer" sujet corps "Invitation" nom nom "Jean Picard" "Émilie Dugré" para "Veuillez noter que ... le 27 septembre 2012." para "SVP, avisez-moi ... pouvez pas y assister." Copyright © 2007 Yves Marcoux - Reproduction interdite 22 Format normalisé • Recommandations du W3C de 1998 – XML 1.0 (1e éd.) février 1998 – XML 1.0 (3e éd.) février 2004 – XML 1.1 (février 2004): encore peu utilisée • Spécifications et évolution non contrôlées par un seul producteur ou un petit groupe • HTML = normalisé (W3C et ISO/IEC) • Word, WordPerfect, PDF normalisés… Copyright © 2007 Yves Marcoux - Reproduction interdite 23 (Appartée PDF) • Communiqué d’ISO, 7 octobre 2005: – ISO 19005-1:2005 […] Electronic document file format for long-term preservation – Part 1, Use of PDF 1.4 (PDF/A-1) – Future parts of ISO 19005 […] will provide compatibility with future versions of the underlying PDF specification, while maintaining the current standard and applications based on PDF Version 1.4. Copyright © 2007 Yves Marcoux - Reproduction interdite 24 XML: à quoi ça sert? • • • • • • • • Documents textuels (rapports, mémoires) Fiches, dossiers (médical, d’employé) Métadonnées (MARC, RDDA, GILS) Formulaires, documents administratifs (PV) Communication savante (revues) Référence (dictionnaires, encyclopédies) Multimédia, hypermédia (présentations) Etc. Copyright © 2007 Yves Marcoux - Reproduction interdite 25 Comment ça marche? • • • • • Balisage logique… Balisage généralisable (métalangage)… Séparation contenu-traitement Pour la restitution: feuilles de styles Autres applications de traitement Copyright © 2007 Yves Marcoux - Reproduction interdite 26 Balisage logique • Philosophie: les balises traduisent la structure logique du contenu, et non sa mise en page ou un autre traitement • Les documents ne contiennent aucune information de mise en page • Amène une séparation contenu-traitement bénéfique • Exemple: XML versus Word (RTF) Copyright © 2007 Yves Marcoux - Reproduction interdite 27 Sur papier MÉMORANDUM De: Julia Royer À: Jean Picard Émilie Dugré Sujet: Invitation ____________________________________________ Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. Copyright © 2007 Yves Marcoux - Reproduction interdite 28 RTF (Word)* (...) \adjustright \fs20\lang3084\cgrid \b\f2\fs38\cf1\cgrid0 MÉMORANDUM}{\f2\fs38\cf1\cgrid0 \par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0 \par }{\b\f2\fs38\cf1\cgrid0 De:}{\f2\fs38\cf1\cgrid0 Julia Royer \par }{\b\f2\fs38\cf1\cgrid0 À: }{\f2\fs38\cf1\cgrid0 Jean Picard \par Émilie Dugré \par \par }{\b\f2\fs38\cf1\cgrid0 Sujet: } {\f2\fs38\cf1\cgrid0 Invitation \par \par }\pard nowidctlpar\widctlpar\brdrt\brdrs\brdrw10\brsp20 \par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0 Veuillez noter que la prochaine réunion du conseil d'administration se tiendra le 27 septembre 2012. \par \par SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister.}{ \par }} *Sans feuille de styles Copyright © 2007 Yves Marcoux - Reproduction interdite 29 XML (rappel) <mémo> <auteur> Julia Royer </auteur> <destinataires> <nom> Jean Picard </nom> <nom> Émilie Dugré </nom> </destinataires> <sujet> Invitation </sujet> <corps> <para> Veuillez noter que la prochaine réunion du conseil d’administration se tiendra le 27 septembre 2012. </para> <para> SVP, avisez-moi dans les plus brefs délais si vous ne pouvez pas y assister. </para> </corps> </mémo> Copyright © 2007 Yves Marcoux - Reproduction interdite 30 Balisage généralisable • XML est en fait un métalangage • On définit les balises utilisables pour une classe de documents (ex.: les mémos dans une compagnie) • Via une Document Type Definition (DTD) et/ou un « schéma XML » • Un exemple: une DTD pour des mémos Copyright © 2007 Yves Marcoux - Reproduction interdite 31 Une DTD XML pour les mémos <!ELEMENT mémo (auteur, date?, destinataires, sujet, cc?, corps)> <!ELEMENT auteur (#PCDATA)> <!ELEMENT date (#PCDATA)> <!ELEMENT destinataires (nom+)> <!ELEMENT sujet (#PCDATA)> <!ELEMENT cc (nom+)> <!ELEMENT corps (par*)> <!ELEMENT nom (#PCDATA)> <!ELEMENT par (#PCDATA)> Copyright © 2007 Yves Marcoux - Reproduction interdite 32 Copyright © 2007 Yves Marcoux - Reproduction interdite 33 Feuilles de styles • Spécifie comment restituer (ex.: mettre en page) tout document conforme à une DTD • (Feuilles de styles documents) = réutilisation de l’information • Exemple (en classe): mémos Copyright © 2007 Yves Marcoux - Reproduction interdite 34 Avantages et désavantages de XML • Avantages du balisage logique • Avantages de la normalisation • Internationalité et internationalisation (i18n): Unicode • Désavantages: coûts Copyright © 2007 Yves Marcoux - Reproduction interdite 35 Avantages du balisage logique • Réutilisation de l’information, versatilité d’accès • Spécification des applications indépendante des contenus (temps et « espace ») • Factorisation du travail entre auteurs, typographes, informaticiens, etc. • Indexation automatique, recherche d'information améliorées Copyright © 2007 Yves Marcoux - Reproduction interdite 36 Avantages de la normalisation • Diffusion « universelle » • Échange, interopérabilité (important pour le commerce électronique) • Logique + normalisé: indépendance par rapport aux logiciels et au matériel de restitution • Potentiel de pérennité – Convient à l’archivage à long terme Copyright © 2007 Yves Marcoux - Reproduction interdite 37 Normes afférentes • SGML (Standard Generalized Markup Language: ISO/IEC 8879:1986) • HTML, XHTML • RDF et Topic Maps Copyright © 2007 Yves Marcoux - Reproduction interdite 38 SGML = ISO/IEC 8879:1986 • Standard Generalized Markup Language • Plus complexe que XML; légèrement plus puissant • Développé à partir de GML (1969), un produit d’IBM • GML = auteurs Goldfarb, Mosher, Lorie! Copyright © 2007 Yves Marcoux - Reproduction interdite 39 HTML (1/2) • HTML = HyperText Markup Language • Pouquoi « hypertexte »? – Permet de créer des liens hypertextuels entre les documents • Ce n’est pas un seul format – Il existe plusieurs versions de HTML • Toutes les versions (sauf XHTML) sont des applications (i.e. des DTD) SGML Copyright © 2007 Yves Marcoux - Reproduction interdite 40 HTML (2/2) • Une des versions les plus utilisées est le « HTML 4.01 » – C’est une recommandation du W3C du 24 décembre 1999 • Il existe aussi (depuis 2000) une version du HTML normalisée par ISO/IEC – C’est la norme internationale ISO/IEC 15445:2000 Copyright © 2007 Yves Marcoux - Reproduction interdite 41 Historique du HTML • HTML 1 : 1989 (texte, hyperliens) – Inventé par Tim Berners-Lee, reconnu comme le créateur du Web • • • • HTML 2 : 1994 (images, formulaires) HTML 3 : 1996 (son, applets) HTML 4 : 1998 (vidéo, CSS) XHTML : 2000 Copyright © 2007 Yves Marcoux - Reproduction interdite 42 XHTML (1/2) • Extensible Hypertext Markup Language • Version qui a succédé à HTML 4.01 au sein du W3C – HTML comme telle n’est plus développée • Essentiellement, c’est une réécriture de HTML 4.01 comme application (i.e. DTD) XML, plutôt que SGML Copyright © 2007 Yves Marcoux - Reproduction interdite 43 XHTML (2/2) • XHTML 1.0 (2e édition): Extensible HyperText Markup Language • Recommandation W3C janvier 2000 (révisée en août 2002) • "A Reformulation of HTML 4 in XML 1.0" • XHTML 1.1: Module-based XHTML • Recommandation W3C mai 2001 • Introduit la possibilité d’extensions modulaires (par exemple, XForms pour les formulaires) • Encore peu répandue • 2e édition en préparation février 2007 Copyright © 2007 Yves Marcoux - Reproduction interdite 44 Langages de balisage normalisés SGML simplification application (DTD) HTML XML application (DTD) ajustements mineurs XHTML Copyright © 2007 Yves Marcoux - Reproduction interdite 45 (X)HTML – Points forts • Simplicité, portabilité – Basés sur des formats texte normalisés • Outils gratuits et faciles à utiliser • Navigateurs nombreux et omniprésents sur toutes les plateformes courantes • Parfait pour des documents simples à diffuser sur le Web Copyright © 2007 Yves Marcoux - Reproduction interdite 46 (X)HTML – Points faibles • Inapproprié pour contrôler parfaitement le rendu visuel des documents (PDF est plus approprié dans ce cas) • Difficile de produire des documents imprimés sur papier de qualité professionnelle – Ex.: pas de notion de référence à un numéro de page Copyright © 2007 Yves Marcoux - Reproduction interdite 47 Importance de la validité syntaxique des fichiers (X)HTML • Problèmes causés par les navigateurs trop laxistes (article de Nelson Dumais) • Exemples d'erreurs souvent ignorées: – Mauvaise imbrication des balises – Absence d'éléments obligatoires (head, body, etc.) – Présence de balises « propriétaires » (i.e. non normalisées) reconnues seulement par certains navigateurs spécifiques Copyright © 2007 Yves Marcoux - Reproduction interdite 48 (X)HTML strict vs non strict • (On parle du format, et non du navigateur) • Non strict: – Balisage orienté tantôt sur la structure logique de l’information, tantôt sur son formatage – Exemple: balises pour l’italique <i>...</i> • Strict: – Séparation claire entre contenu / présentation – Plus grande réutilisabilité de l’information – Moins de contrôle sur la présentation Copyright © 2007 Yves Marcoux - Reproduction interdite 49 Métadonnées: initiatives de fond • RDF Resource Description Framework – Recommandations W3C du 10 fév. 2004 • Topic Maps – ISO/IEC 13250 Topic Maps • Les deux: – Orientés « ontologies », « taxonomies », … – Utilisent une syntaxe XML – Compatibles avec Dublin Core Copyright © 2007 Yves Marcoux - Reproduction interdite 50 XML vs (X)HTML Propriété XML (X)HTML Balises définies dans une DTD par une conceptrice selon les besoins variable, fixé par la conceptrice de la DTD prédéfinies dans la DTD (X)HTML Sens des balises Séparation contenu / traitement oui Diffusable navigateurs récents, via sur le Web? stylage XSLT ou CSS défini dans la spécification (X)HTML partielle oui Copyright © 2007 Yves Marcoux - Reproduction interdite 51 Enjeux pour les milieux documentaires • L’information numérique est de plus en plus produite sous forme structurée (XML) • Pour la gérer de manière « intelligente », il faut la traiter dans son format natif (et non en format de présentation) • XML est aussi utile pour la production d’information numérique (catalogage, thésaurus, ontologies, etc.) Copyright © 2007 Yves Marcoux - Reproduction interdite 52 Archivistique • Documentarisation des transactions électroniques – Au Québec, depuis 2001: Loi concernant le cadre juridique des technologies de l’information (L.R.Q. c. C-1.1) – XML redonne une existence documentaire aux formulaires électroniques – Signature numérique (XML Signature) – Archivistique intégrée Copyright © 2007 Yves Marcoux - Reproduction interdite 53 Conséquences pour le professionnel • Modélisation de l’information • Maîtrise des outils de base de traitement • Compréhension des possibilités de traitement automatique (réutilisation) • Compréhension des chaînes de traitement • Signature numérique • Registres de schémas Copyright © 2007 Yves Marcoux - Reproduction interdite 54 Conclusions • XML est déjà là, et pour rester • Pour l’information primaire, les métadonnées et les transactions en ligne (commerce électronique, gouvernement en ligne, etc.) • Choix stratégique: XML agit comme unificateur de forme et d’outils Copyright © 2007 Yves Marcoux - Reproduction interdite 55