Formats de documents numériques

publicité
Formats de documents
numériques, normalisation et
documents structurés
XML et quelques normes afférentes
Yves Marcoux
GRDS - EBSI
Université de Montréal
Copyright © 2007 Yves Marcoux - Reproduction interdite
1
Plan
• Documents numériques, formats, normalisation
• XML:
–
–
–
–
–
–
C’est quoi?
À quoi ça sert?
Comment ça marche?
Avantages et désavantages
Normes afférentes
Enjeux pour les milieux documentaires
• Conclusions
Copyright © 2007 Yves Marcoux - Reproduction interdite
2
Fichiers vs documents
• Fichier: unité gérable par machine
• Document: unité naturelle de communication
entre humains
• Un document peut comporter plusieurs
fichiers (pages Web avec images, etc.)
• Un fichier peut inclure plusieurs documents
– Peu recommandé, sauf pour raisons techniques
(fichiers compressés, etc.)
Copyright © 2007 Yves Marcoux - Reproduction interdite
3
Format de documents
numériques (1/3)
• Ensemble de conventions et règles
pour:
– déterminer si le contenu d'un fichier est
« conforme » ou non (niveau syntaxique ou
lexical)
– interpréter correctement les fichiers qui
sont effectivement conformes (niveau
sémantique)
Copyright © 2007 Yves Marcoux - Reproduction interdite
4
Format de documents
numériques (2/3)
• Exemples:
– Formats texte selon un jeu de caractères
donné
• ASCII pur sur 8 bits
• Unicode-UTF-16-BE
– Word, PowerPoint
– PDF, SMIL, Jpeg, Mpeg, MP3, etc.
Copyright © 2007 Yves Marcoux - Reproduction interdite
5
Format de documents
numériques (3/3)
• Exemple: texte ASCII pur sur 8 bits
– Niveau lexical: Est-ce que tous les codes
(de 8 bits) contenus dans le fichier sont
des codes admissibles dans un fichier
texte ASCII pur sur 8 bits?
– Niveau sémantique: Quelle suite de
caractères correspond aux codes contenus
dans le fichier?
Copyright © 2007 Yves Marcoux - Reproduction interdite
6
Traitements spéciaux
• Compression sans perte (zip, etc.)
• Encryption (ou chiffrement)
• Applicables à tout fichier, peu importe son
format
• Parfaitement réversibles (sans perte)
• Modifient de fait le format doivent être
considérés pour l’échange de fichiers /
documents
Copyright © 2007 Yves Marcoux - Reproduction interdite
7
Préoccupations liées au format
• accessibilité
– le document est dans un format qui est compris par
une communauté de lecteurs la plus grande possible
• pérennité
– le document demeurera accessible dans le futur
• réutilisabilité
– on peut récupérer un document archivé et continuer à
travailler dessus pour créer un nouveau document
… des documents
Copyright © 2007 Yves Marcoux - Reproduction interdite
8
Normalisation
• Une « spécification » est la description d'un
ensemble de règles et/ou façons de faire
conventionnelles
• Trois types de spécifications sont pertinentes en
gestion de l'information
– Format (statique)
– Protocole (dynamique)
– Procédures pour les humains
(ex.: ISO-15489 Records management)
Copyright © 2007 Yves Marcoux - Reproduction interdite
9
suite
• En gestion d'information numérique, les
deux premiers types (formats et
protocoles) sont les plus déterminants sur
l'efficacité et l'efficience des systèmes
automatisés
• Si on vise la réutilisation de l'information et
l'interopérabilité, il importe que les
systèmes mis en place respectent des
normes pour les formats et les protocoles
Copyright © 2007 Yves Marcoux - Reproduction interdite
10
suite
• HTML est un ex. de format normalisé
• HTTP est un ex. de protocole normalisé
• Les documents normatifs (les « spécifications »
elles-mêmes) qui décrivent un format ou un
protocole normalisé sont destinés aux humains:
ils indiquent comment développer des produits
ou systèmes qui respectent la norme, et sont
donc « interopérables »
Copyright © 2007 Yves Marcoux - Reproduction interdite
11
suite
• Texte de Michel Dumais:
« L'impact social, à mon avis, est l'impact le plus
important des normes libres. Ne pas être prisonnier
d'une entité commerciale décidant de l'avenir de votre
information, de vos données. Avoir le choix en toutes
circonstances, la possibilité de changer, de faire
autrement, voilà l'enjeu des normes libres. »
Karl Dubost (cité dans l'article de Michel Dumais)
Copyright © 2007 Yves Marcoux - Reproduction interdite
12
Degrés de normalisation d'un format de
documents numériques (1/2)
• Formats « secrets »
– Format interne DB/TextWorks
– Interopérabilité possible via
exportation / importation
• Formats propriétaires
– Word, WordPerfect, PDF
• Normes de facto
– Word, PDF, LaTeX
Copyright © 2007 Yves Marcoux - Reproduction interdite
13
Degrés de normalisation d'un format de
documents numériques (2/2)
• Norme internationale officielle (ou de jure)
– Définies et sanctionnées par une instance
officielle internationale de normalisation
– Ex.: SGML, HTML, XML
• Norme nationale
– Organismes nationaux comme ANSI, CSA
– Alignement sur les normes internationales
Copyright © 2007 Yves Marcoux - Reproduction interdite
14
Instances internationales de
normalisation (1/2)
• ISO (International Organisation for
Standardization)
• IEC (International Electrotechnical
Comission)
• W3C (World Wide Web Consortium)
• ECMA International (European Computer
Manufacturers Association avant 1994)
Copyright © 2007 Yves Marcoux - Reproduction interdite
15
Instances internationales de
normalisation (2/2)
• Consortium Unicode
• ITU ou UIT (Union internationale des
télécommunications)
Copyright © 2007 Yves Marcoux - Reproduction interdite
16
Importance de la normalisation
• Être une norme de jure n'est pas tout, la
reconnaissance et l'adoption dans la
société sont encore plus importantes
• Les spécifications normalisées sont plus
stables (changent moins vite) que les
spécifications guidées par des intérêts
commerciaux: intéressant pour le long
terme
Copyright © 2007 Yves Marcoux - Reproduction interdite
17
XML, c’est quoi?
• eXtensible Markup Language
= Langage de balisage généralisable
• Définie par le W3C en février 1998 (v1.0)
W3C = World Wide Web Consortium
• Format de documents numériques
• Format de documents structurés
• Format normalisé
Copyright © 2007 Yves Marcoux - Reproduction interdite
18
Format de documents
numériques
• Tout comme Word, HTML, PDF, ...
• Documents = fichiers (.xml)
• Documents peuvent être:
– imprimés, échangés, diffusés sur le Web
– convertis vers autres formats (ex. PDF,
HTML)
– liés à d’autres documents par des liens
hypertextuels
Copyright © 2007 Yves Marcoux - Reproduction interdite
19
Format de documents
structurés
• Un format utilisant le balisage par dessus
un format texte (Unicode-UTF-8)
– Les documents XML sont aussi des fichiers
texte Unicode-UTF-8
• Balises (à la <HTML>) identifient début et fin
des éléments constitutifs du document
• Un exemple: un mémo
Copyright © 2007 Yves Marcoux - Reproduction interdite
20
Un mémo en
XML
<mémo>
<auteur> Julia Royer </auteur>
<destinataires>
<nom> Jean Picard </nom>
<nom> Émilie Dugré </nom>
</destinataires>
<sujet> Invitation </sujet>
<corps>
<para> Veuillez noter que la prochaine réunion
du conseil d’administration se tiendra le
27 septembre 2012. </para>
<para> SVP, avisez-moi dans les plus brefs délais
si vous ne pouvez pas y assister. </para>
</corps>
</mémo>
Copyright © 2007 Yves Marcoux - Reproduction interdite
21
mémo
auteur
destinataires
"Julia Royer"
sujet
corps
"Invitation"
nom
nom
"Jean Picard"
"Émilie Dugré"
para
"Veuillez noter que ...
le 27 septembre 2012."
para
"SVP, avisez-moi ...
pouvez pas y assister."
Copyright © 2007 Yves Marcoux - Reproduction interdite
22
Format normalisé
• Recommandations du W3C de 1998
– XML 1.0 (1e éd.) février 1998
– XML 1.0 (3e éd.) février 2004
– XML 1.1 (février 2004): encore peu utilisée
• Spécifications et évolution non contrôlées
par un seul producteur ou un petit groupe
• HTML = normalisé (W3C et ISO/IEC)
• Word, WordPerfect, PDF  normalisés…
Copyright © 2007 Yves Marcoux - Reproduction interdite
23
(Appartée PDF)
• Communiqué d’ISO, 7 octobre 2005:
– ISO 19005-1:2005 […] Electronic document
file format for long-term preservation – Part 1,
Use of PDF 1.4 (PDF/A-1)
– Future parts of ISO 19005 […] will provide
compatibility with future versions of the
underlying PDF specification, while
maintaining the current standard and
applications based on PDF Version 1.4.
Copyright © 2007 Yves Marcoux - Reproduction interdite
24
XML: à quoi ça sert?
•
•
•
•
•
•
•
•
Documents textuels (rapports, mémoires)
Fiches, dossiers (médical, d’employé)
Métadonnées (MARC, RDDA, GILS)
Formulaires, documents administratifs (PV)
Communication savante (revues)
Référence (dictionnaires, encyclopédies)
Multimédia, hypermédia (présentations)
Etc.
Copyright © 2007 Yves Marcoux - Reproduction interdite
25
Comment ça marche?
•
•
•
•
•
Balisage logique…
Balisage généralisable (métalangage)…
Séparation contenu-traitement
Pour la restitution: feuilles de styles
Autres applications de traitement
Copyright © 2007 Yves Marcoux - Reproduction interdite
26
Balisage logique
• Philosophie: les balises traduisent la
structure logique du contenu, et non sa
mise en page ou un autre traitement
• Les documents ne contiennent aucune
information de mise en page
• Amène une séparation contenu-traitement
bénéfique
• Exemple: XML versus Word (RTF)
Copyright © 2007 Yves Marcoux - Reproduction interdite
27
Sur papier
MÉMORANDUM
De: Julia Royer
À: Jean Picard
Émilie Dugré
Sujet: Invitation
____________________________________________
Veuillez noter que la prochaine réunion du
conseil d’administration se tiendra le 27
septembre 2012.
SVP, avisez-moi dans les plus brefs délais si
vous ne pouvez pas y assister.
Copyright © 2007 Yves Marcoux - Reproduction interdite
28
RTF (Word)*
(...)
\adjustright \fs20\lang3084\cgrid \b\f2\fs38\cf1\cgrid0
MÉMORANDUM}{\f2\fs38\cf1\cgrid0
\par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0
\par }{\b\f2\fs38\cf1\cgrid0 De:}{\f2\fs38\cf1\cgrid0 Julia Royer
\par }{\b\f2\fs38\cf1\cgrid0 À: }{\f2\fs38\cf1\cgrid0 Jean Picard
\par Émilie Dugré \par \par }{\b\f2\fs38\cf1\cgrid0 Sujet: }
{\f2\fs38\cf1\cgrid0 Invitation
\par \par }\pard nowidctlpar\widctlpar\brdrt\brdrs\brdrw10\brsp20
\par }\pard \nowidctlpar\widctlpar\adjustright {\f2\fs38\cf1\cgrid0
Veuillez noter que la prochaine réunion du conseil
d'administration se tiendra le 27 septembre 2012.
\par \par SVP, avisez-moi dans les plus brefs délais si vous ne
pouvez pas y assister.}{ \par }}
*Sans
feuille de styles
Copyright © 2007 Yves Marcoux - Reproduction interdite
29
XML (rappel)
<mémo>
<auteur> Julia Royer </auteur>
<destinataires>
<nom> Jean Picard </nom>
<nom> Émilie Dugré </nom>
</destinataires>
<sujet> Invitation </sujet>
<corps>
<para> Veuillez noter que la prochaine réunion
du conseil d’administration se tiendra le
27 septembre 2012. </para>
<para> SVP, avisez-moi dans les plus brefs délais
si vous ne pouvez pas y assister. </para>
</corps>
</mémo>
Copyright © 2007 Yves Marcoux - Reproduction interdite
30
Balisage généralisable
• XML est en fait un métalangage
• On définit les balises utilisables pour une
classe de documents (ex.: les mémos
dans une compagnie)
• Via une Document Type Definition (DTD)
et/ou un « schéma XML »
• Un exemple: une DTD pour des mémos
Copyright © 2007 Yves Marcoux - Reproduction interdite
31
Une DTD XML pour les mémos
<!ELEMENT mémo
(auteur, date?, destinataires, sujet, cc?, corps)>
<!ELEMENT auteur (#PCDATA)>
<!ELEMENT date (#PCDATA)>
<!ELEMENT destinataires (nom+)>
<!ELEMENT sujet (#PCDATA)>
<!ELEMENT cc (nom+)>
<!ELEMENT corps (par*)>
<!ELEMENT nom (#PCDATA)>
<!ELEMENT par (#PCDATA)>
Copyright © 2007 Yves Marcoux - Reproduction interdite
32
Copyright © 2007 Yves Marcoux - Reproduction interdite
33
Feuilles de styles
• Spécifie comment restituer (ex.: mettre en
page) tout document conforme à une DTD
• (Feuilles de styles  documents) =
réutilisation de l’information
• Exemple (en classe): mémos
Copyright © 2007 Yves Marcoux - Reproduction interdite
34
Avantages et désavantages
de XML
• Avantages du balisage logique
• Avantages de la normalisation
• Internationalité et internationalisation
(i18n): Unicode
• Désavantages: coûts
Copyright © 2007 Yves Marcoux - Reproduction interdite
35
Avantages du balisage
logique
• Réutilisation de l’information, versatilité
d’accès
• Spécification des applications indépendante
des contenus (temps et « espace »)
• Factorisation du travail entre auteurs,
typographes, informaticiens, etc.
• Indexation automatique, recherche
d'information améliorées
Copyright © 2007 Yves Marcoux - Reproduction interdite
36
Avantages de la normalisation
• Diffusion « universelle »
• Échange, interopérabilité (important
pour le commerce électronique)
• Logique + normalisé: indépendance par
rapport aux logiciels et au matériel de
restitution
• Potentiel de pérennité
– Convient à l’archivage à long terme
Copyright © 2007 Yves Marcoux - Reproduction interdite
37
Normes afférentes
• SGML (Standard Generalized Markup
Language: ISO/IEC 8879:1986)
• HTML, XHTML
• RDF et Topic Maps
Copyright © 2007 Yves Marcoux - Reproduction interdite
38
SGML = ISO/IEC 8879:1986
• Standard Generalized Markup Language
• Plus complexe que XML; légèrement plus
puissant
• Développé à partir de GML (1969), un
produit d’IBM
• GML = auteurs Goldfarb, Mosher, Lorie!
Copyright © 2007 Yves Marcoux - Reproduction interdite
39
HTML (1/2)
• HTML = HyperText Markup Language
• Pouquoi « hypertexte »?
– Permet de créer des liens hypertextuels entre
les documents
• Ce n’est pas un seul format
– Il existe plusieurs versions de HTML
• Toutes les versions (sauf XHTML) sont des
applications (i.e. des DTD) SGML
Copyright © 2007 Yves Marcoux - Reproduction interdite
40
HTML (2/2)
• Une des versions les plus utilisées est le
« HTML 4.01 »
– C’est une recommandation du W3C du 24
décembre 1999
• Il existe aussi (depuis 2000) une version
du HTML normalisée par ISO/IEC
– C’est la norme internationale
ISO/IEC 15445:2000
Copyright © 2007 Yves Marcoux - Reproduction interdite
41
Historique du HTML
• HTML 1 : 1989 (texte, hyperliens)
– Inventé par Tim Berners-Lee, reconnu comme
le créateur du Web
•
•
•
•
HTML 2 : 1994 (images, formulaires)
HTML 3 : 1996 (son, applets)
HTML 4 : 1998 (vidéo, CSS)
XHTML : 2000
Copyright © 2007 Yves Marcoux - Reproduction interdite
42
XHTML (1/2)
• Extensible Hypertext Markup Language
• Version qui a succédé à HTML 4.01 au
sein du W3C
– HTML comme telle n’est plus développée
• Essentiellement, c’est une réécriture de
HTML 4.01 comme application (i.e. DTD)
XML, plutôt que SGML
Copyright © 2007 Yves Marcoux - Reproduction interdite
43
XHTML (2/2)
• XHTML 1.0 (2e édition):
Extensible HyperText Markup Language
• Recommandation W3C janvier 2000 (révisée en
août 2002)
• "A Reformulation of HTML 4 in XML 1.0"
• XHTML 1.1: Module-based XHTML
• Recommandation W3C mai 2001
• Introduit la possibilité d’extensions modulaires (par
exemple, XForms pour les formulaires)
• Encore peu répandue
• 2e édition en préparation février 2007
Copyright © 2007 Yves Marcoux - Reproduction interdite
44
Langages de balisage normalisés
SGML
simplification
application (DTD)
HTML
XML
application (DTD)
ajustements
mineurs
XHTML
Copyright © 2007 Yves Marcoux - Reproduction interdite
45
(X)HTML – Points forts
• Simplicité, portabilité
– Basés sur des formats texte normalisés
• Outils gratuits et faciles à utiliser
• Navigateurs nombreux et omniprésents
sur toutes les plateformes courantes
• Parfait pour des documents simples à
diffuser sur le Web
Copyright © 2007 Yves Marcoux - Reproduction interdite
46
(X)HTML – Points faibles
• Inapproprié pour contrôler parfaitement le
rendu visuel des documents (PDF est plus
approprié dans ce cas)
• Difficile de produire des documents
imprimés sur papier de qualité
professionnelle
– Ex.: pas de notion de référence à un numéro
de page
Copyright © 2007 Yves Marcoux - Reproduction interdite
47
Importance de la validité
syntaxique des fichiers (X)HTML
• Problèmes causés par les navigateurs trop
laxistes (article de Nelson Dumais)
• Exemples d'erreurs souvent ignorées:
– Mauvaise imbrication des balises
– Absence d'éléments obligatoires (head, body,
etc.)
– Présence de balises « propriétaires » (i.e. non
normalisées) reconnues seulement par
certains navigateurs spécifiques
Copyright © 2007 Yves Marcoux - Reproduction interdite
48
(X)HTML strict vs non strict
• (On parle du format, et non du navigateur)
• Non strict:
– Balisage orienté tantôt sur la structure logique
de l’information, tantôt sur son formatage
– Exemple: balises pour l’italique <i>...</i>
• Strict:
– Séparation claire entre contenu / présentation
– Plus grande réutilisabilité de l’information
– Moins de contrôle sur la présentation
Copyright © 2007 Yves Marcoux - Reproduction interdite
49
Métadonnées: initiatives de fond
• RDF Resource Description Framework
– Recommandations W3C du 10 fév. 2004
• Topic Maps
– ISO/IEC 13250 Topic Maps
• Les deux:
– Orientés « ontologies », « taxonomies », …
– Utilisent une syntaxe XML
– Compatibles avec Dublin Core
Copyright © 2007 Yves Marcoux - Reproduction interdite
50
XML vs (X)HTML
Propriété
XML
(X)HTML
Balises
définies dans une DTD par
une conceptrice selon les
besoins
variable, fixé par la
conceptrice de la DTD
prédéfinies dans
la DTD (X)HTML
Sens des
balises
Séparation
contenu /
traitement
oui
Diffusable
navigateurs récents, via
sur le Web? stylage XSLT ou CSS
défini dans la
spécification
(X)HTML
partielle
oui
Copyright © 2007 Yves Marcoux - Reproduction interdite
51
Enjeux pour les milieux
documentaires
• L’information numérique est de plus en
plus produite sous forme structurée (XML)
• Pour la gérer de manière « intelligente », il
faut la traiter dans son format natif (et non
en format de présentation)
• XML est aussi utile pour la production
d’information numérique (catalogage,
thésaurus, ontologies, etc.)
Copyright © 2007 Yves Marcoux - Reproduction interdite
52
Archivistique
• Documentarisation des transactions
électroniques
– Au Québec, depuis 2001: Loi concernant le
cadre juridique des technologies de
l’information (L.R.Q. c. C-1.1)
– XML redonne une existence documentaire
aux formulaires électroniques
– Signature numérique (XML Signature)
– Archivistique intégrée
Copyright © 2007 Yves Marcoux - Reproduction interdite
53
Conséquences pour le
professionnel
• Modélisation de l’information
• Maîtrise des outils de base de traitement
• Compréhension des possibilités de
traitement automatique (réutilisation)
• Compréhension des chaînes de traitement
• Signature numérique
• Registres de schémas
Copyright © 2007 Yves Marcoux - Reproduction interdite
54
Conclusions
• XML est déjà là, et pour rester
• Pour l’information primaire, les
métadonnées et les transactions en ligne
(commerce électronique, gouvernement
en ligne, etc.)
• Choix stratégique: XML agit comme
unificateur de forme et d’outils
Copyright © 2007 Yves Marcoux - Reproduction interdite
55
Téléchargement