Les enjeux de l`interopérabilité sémantique dans les systèmes d

publicité
Informatique et santé
Collection dirigée par P. Degoulet et M. Fieschi
Paris, Springer-Verlag France
Informatique et Gestion Médicalisée
Rédacteurs :
F. Kohler, M. Brémond et D.Mayeux
Volume 9
Springer-Verlag France, Paris , 1997
Les enjeux de l'interopérabilité sémantique dans les systèmes d'information de santé
Patrice Degoulet (a), Marius Fieschi (b) et Christophe Attali (c)
a Hôpital Broussais, Service d'Informatique Médicale, 96 rue Didot, 75014 Paris
b Hôpital de la Timone, Département d'Information Médicale, rue Saint-Pierre, 13385 Marseille
c Ministère du Travail et Affaires Sociales, 8 avenue de Ségur 75007 Paris
Abstract
Rapid development of community health information networks raises the issue of semantic interoperability
between distributed and heterogeneous components. Indeed, operational health information systems originate
from heterogeneous teams of independent developers and have to cooperate in order to exchange data and
services. A good cooperation is naturally based on a good understanding of the messages exchanged between the
systems. The main issue of semantic interoperability is to ensure that the exchange is not only possible bus also
meaningful.
Informatique et Santé, 1997 (9) : 203-212
1 Introduction
L'efficacité et l'efficience des systèmes d'information de santé doivent être améliorées significativement si l'on
souhaite garantir la qualité des soins tout en respectant les contraintes budgétaires. Il s'agit, tout d'abord, de relier
les différents acteurs du système de santé afin de pallier les limites de l'exercice isolé, d'assurer une prise en
charge globale des patients et de garantir la continuité des soins. Il s'agit, également, de maîtriser les coûts des
systèmes de soin et d'en piloter le fonctionnement global et les adaptations en fonction de l'évolution des
connaissances et des pratiques médicales.
Un système d'information de santé nécessite une infrastructure de communication assurant la liaison entre les
différents acteurs du réseau de soins : professionnels des secteurs hospitalier et extra-hospitalier de production
des soins, organismes de financement et d'évaluation, secteurs de l'enseignement et de la recherche. Cette
infrastructure, qui fait appel à une multitude de moyens de traitement de l'information (ordinateurs) et de
communication (réseaux), est illustrée par le schéma de la figure 1.
L'accès aux données individuelles d'un patient peut se faire, sous réserve du respect des règles de sécurité et de
protection des données nominatives, à partir de postes de travail situés à l'hôpital, dans le cabinet du médecin,
voire au domicile des patients. En même temps qu'aux données individuelles, il convient d'accéder aux systèmes
documentaires et aux banques de connaissances permettant d'optimiser les décisions médicales. Certaines
données, une fois "filtrées", validées et éventuellement anonymisées, sont transmises aux organismes de
financement et de contrôle ou intégrées dans des bases de données épidémiologiques ou de recherche.
Dans un tel réseau de soins, les données sont réparties sur plusieurs serveurs qu'il importe alors de faire coopérer
harmonieusement. 12objectif pour l'ingénieur responsable du développement du réseau est de fournir aux
utilisateurs la vision d'un système "virtuel" unique et homogène, alors que l'information est distribuée sur des
environnements hétérogènes. L'objectif pour les utilisateurs est de pouvoir accéder de façon simple et
transparente aux informations et connaissances utiles, quelles qu'en soient la localisation ou les modalités de
stockage. Cette vision unifiée, au travers d'un poste de travail banalisé jouant le rôle d'assistant intelligent, est
illustrée dans le schéma de la figure 2.
2 L'interopérabilité des systèmes d'information
2.1 Principes généraux et objectifs
L'interopérabilité entre les composants d'un système d'information distribué peut se définir comme la capacité de
ces composants à échanger des services et des données [1]. Elle repose sur des conventions adoptées entre les
parties communicantes et régissant, entre autres, les protocoles d'échange de messages, la désignation des
procédures à activer ou les codes d'erreur retournés. Elle présente une dimension statique (comme, par exemple,
la compatibilité des types de données) et une dimension dynamique (comme la compatibilité des procédures).
L'interopérabilité repose tout d'abord sur l'interconnectivité des composants, qui est elle-même régie par le
respect de normes et de standards informatiques de communication. Les standards de communication consistent
en des spécifications techniques qui se traduisent par des définitions et des règles d'ingénierie, de façon à assurer
que les produits, les traitements et les services remplissent bien leur rôle.
Les messages médicaux ne diffèrent pas fondamentalement des messages d'autres secteurs professionnels. Ils ont
une syntaxe (une forme) et une sémantique (un sens). A un sens, peuvent correspondre plusieurs formes, ce qui
est naturel, mais l'inverse peut aussi être vrai si l'on modélise mal (ou pas du tout) le domaine dans lequel les
échanges sont effectués.
L'interopérabilité syntaxique propose une intégration de premier niveau, que l'on peut appeller intégration
syntaxique, en définissant notamment la nature, le type et le format des messages échangés, Elle conduit à la
notion de système ouvert permettant d'assumer l'hétérogénéité des composants (interfaces, langages de
programmation, etc.) [2-4]. Ce premier niveau est toutefois insuffisant : la cohérence formelle des messages ne
garantit pas, par elle-même, la cohérence des significations perçues par les différents utilisateurs d'un système
(figure 3). Une intégration de second niveau, l'intégration sémantique basée sur l'interopérabilité sémantique, est
donc nécessaire qui prolonge et complète la précédente.
L'objectif de l'interopérabilité sémantique est ainsi d'assurer que les échanges qui s'effectuent entre les
composants interconnectés conservent leur sens, c'est à dire que les parties communicantes ont une
compréhension commune de la signification des données et des services qu'elles échangent [5]. L'interopérabilité
sémantique est une réponse à l'hétérogénéité sémantique des informations traitées par les différentes
applications. Elle implique que les divers utilisateurs partagent des vues cohérentes sur les systèmes de concepts
sous-jacents aux diverses applications (figure 4). Ainsi, par exemple, la signification de la valeur 100 d'un
champs de donnée dépend du concept associé (par exemple la pression artérielle) qui peut être décrit
partiellement dans les dictionnaires de données des logiciels d'application, mais également de l'unité, de la
méthode de mesure utilisée ou du degré de précision.
Figure 4 : Les deux niveaux de l'interopérabilité des systèmes d'information : syntaxique et sémantique
2.2 La multiplicité des syntaxes
La situation actuelle est caractérisée par une multiplicité de standards d'échanges de messages, chacun
caractérisé par une syntaxe et un domaine privilégié d'utilisation. Ainsi, le standard ASTM 1238 est adapté à la
transmission de résultats biologiques et le standard DICOM à la transmission d'images radiologiques [6-8].
L'hétérogénéité des syntaxes n'est cependant pas un obstacle absolu à l'interopérabilité des systèmes
d'information. Il est en effet toujours possible de concevoir des modèles plus génériques et des outils de
traduction d'une syntaxe dans une autre. Ainsi, par l'intermédiaire de l'un de ses groupes de travail (TC 25 1), le
Comité Européen de Normalisation (CEN) a réalisé une étude comparative des caractéristiques syntaxiques des
principaux messages médicaux [8]. Une des conclusions du rapport est que les spécifications sémantiques des
messages sont plus importantes que le choix de la syntaxe utilisée pour supporter le format des messages.
Considérant les particularités du domaine médical, de Moor fait remarquer que le développement de messages,
sans tenir compte de la syntaxe qui n'entre en jeu qu'à la fin du processus, semble être la meilleure alternative
pour satisfaire les besoins complexes et nombreux de communication dans le domaine de la santé [9]. Partant de
ces hypothèses, le CEN/TC 251 ne recommande aucun format de message spécifique pour la totalité du domaine
de la santé, mais il préconise une méthode de développement indépendante de la syntaxe, basée sur des
descriptions générales de messages. Se pose alors le problème de l'harmonisation de différents modèles de
données pour aboutir à un modèle générique commun de message.
Au sein de VIEEE, le JWG-CDM (Joint Working Group for a Common Data Model, ou MEDIX) est en charge
du développement d'un modèle de données commun (Common Data Model ou CDM) aux standards de
l'informatique de Santé [10,11]. Les objectifs mis en avant par ce comité sont les suivants :
• constituer une syntaxe commune pour la modélisation des données à partager,
• établir un modèle objet du domaine de la Santé,
• formaliser un processus de développement distribué des différentes parties du modèle commun à partir de
sous-modèles (Subset Data Model ou SDM),
• créer un répertoire central pour collecter les différents éléments du CDM.
La figure 5 présente la façon dont les différents organismes normalisateurs coopèrent autour du modèle de donné
commun et des sous-modèles.
Figure 5: Le processus d'harmonisation du modèle de données dans l'approche IEEE/MEDIX
2.3 Vers un interopérabilité sémantique des systèmes d'information
Un message peut être considéré comme un ensemble d'unités élémentaires ou atomes d'information, tels que des
couples "attribut - valeur" (par exemple Glycémie 5.5 mmol/1). Les unités peuvent être regroupées en segments
et/ou accepter des éléments de répétition pour former des structures plus complexes (par exemple, le résultat
d'une hyperglycémie provoquée). Comme dans une phrase du langage naturel, la signification sémantique d'un
message est basée sur la signification individuelle de chacun de ses éléments, sur la signification complémentaire
qui résulte de la structure globale utilisée et sur les informations qui peuvent être dérivées des deux précédentes.
Certains éléments peuvent représenter des informations contextuelles qui seront utiles à la transmission et
l'interprétation correcte du message (par exemple, l'émetteur, le destinataire, la syntaxe utilisée ou la référence à
un vocabulaire particulier). Les informations contextuelles, qui seront partagées par l'ensemble des éléments de
message, sont souvent regroupées dans l'entête (header) ou la fin (trailer) du message.
La compatibilité ou l'incompatibilité sémantique lors du processus création/interprétation des messages
dépendent notamment de trois facteurs clés :
• la terminologie ou les nomenclature
Il s'agit de la façon dont les concepts s'expriment dans un vocabulaire contrôlé, ayant le statut de référentiel
d'un domaine de connaissance ou d'activité.
• les relations sémantiques explicites portant sur la terminologie
Les relations peuvent être organisées dans un réseau sémantique. Celui-ci structure les liens entre les
concepts du domaine, en en précisant la nature ; liens de synonymie, d'hétéronymie, de dérivation, etc. (par
exemple PAS et Pression Artérielle Systolique ou angor et angine de poitrine pour des liens de
synononymie).
• la représentation des concepts dans les messages
En général, deux institutions modélisent et représentent les concepts de façons diverses. Des exemples
simples sont l'âge (modélisation de celui-ci ou de la date de naissance, ... ) et l'adresse d'une personne
(séparation du numéro de la rue, du code postal, nombre de lignes, ... ). On pourrait citer de nombreux autres
cas comme la modélisation de l'existence d'un symptôme par un stade (ou une gravité) ou simplement par
oui ou non.
Les deux premiers problèmes ont fait l'objet de nombreux efforts de recherche et développement. Il en résulte un
ensemble de vocabulaires normalisés ou référentiels, dont la portée peut être locale, nationale ou internationale.
La solution au troisième problème passe par une modélisation fine des messages en séparant ce qui est générique
de ce qui peut être spécifique tant au niveau syntaxique que sémantique,
La figure 6 illustre la situation pour deux messages simples M et M'. Le message M est produit par un
composant émetteur A et le Message M' peut être compris par un composant recepteur B. Le message M est codé
selon la syntaxe HL7 et chiffré. Ses concepts font référence au vocabulaire contrôlé ou référentiel RA qui
modélise lui-même le domaine A -, on parle alors de l'ontologie OA du domaine (la production d'un message
HL7 chiffré est considérée comme la sortie du composant A). M' (l'entrée du composant B) n'est pas chiffré,
mais est codé en ASN. 1 et fait référence au référentiel RB qui modélise une ontologie OB.
Nom du patient et nom de naissance sont considérés comme des synonymes exacts dans OA et OB. Les dates
diffèrent par leur modalité de codage (jour/mois/année versus mois/jour/année). Les dosages d'azote et d'urée
dans le sang ne font pas référence au même concept biologique (l'azote est un composant de l'urée) mais il existe
un facteur de conversion connu pour passer des unités en mg/dl aux unités en mmol/l et de l'urée à l'azote ou
vice-versa.
Message M
Emetteur : Composant A
Syntaxe M: HL7
Cryptage : oui
Référentiel : RA
Ontologie: OA
Nom du patient: Dupont
Date de naissance :30/08/1938
Azote sanguin : 3.5 mmol/l
Age à la découverte du cancer: 40 ans
Message M'
Receveur: Composant B
Syntaxe M': ASN. 1
Cryptage : non
Référentiel: RB
Ontologie: OB
Nom de naissance: Dupont
Date de naissance : 08/30/38
Urée sanguine : 10 mg/dl
Date de la découverte du cancer: [08/30/78 - 08/30/79]
Figure 6 : Transformation d'un message
Le problème technique de l'interopérabilité sémantique devient alors celui de la réalisation d'outils génériques
capables de transformer un message quelconque M émis par un composant A en un message sémantiquement
équivalent M', sachant que les messages peuvent différer par leur syntaxe, leurs modalités de codage et leur
association à des référentiels différents. Dans l'exemple de la figure 6, les conversions peuvent être effectuées
dans les deux sens. Dans une situation réelle, les conversions peuvent s'accompagner d'une perte d'information
significative, voire être impossibles à effectuer. 70.0 mmHg est plus précis que 70 mmHg. Le nom d'un concept
dans un référentiel RA peut avoir des homonymes dans le référentiel RB. L'ordre dans lequel des
transformations successives doivent être effectuées n'est pas anodin. Dans l'exemple précédent, les données
doivent être décryptées avant les changements de syntaxe. La figure 7 : illuste ce processus générique de
transformation de messages par un outil informatique jouant le rôle d'un médiateur de communication [12].
3 Les enjeux de Pinteropérabifité
L'interopérabilité des systèmes d'information se définit donc à deux niveaux
• la compatibilité syntaxique des messages échangés et
• la compatibilité plus profonde du sens des messages ou compatibilité sémantique qui englobe la première,
L'interopérabilité sémantique recherche une interopérabilité globale sur la signification des échanges, c'est à dire
sur leur interprétation ou leur finalité. Cet aspect est crucial et constitue aujourd'hui le principal facteur limitant
au développement d'applications intégrables dans des systèmes complexes. Le secteur de la santé, de par la
complexité de ses systèmes d'informations, comme de la richesse des vocabulaires techniques utilisés, est
particulièrement significatif à cet égard. Les exemples suivants montrent l'importance du problème et en
illustrent les enjeux.
De nombreuses applications actuellement opérationnelles sont le résultat d'une lente évolution à partir
d'architectures plus anciennes dans lesquelles une grande partie de l'information sémantique était cachée dans les
programmes d'applications. Les stratégies de migration retenues consistent habituellement à éclater les systèmes
en plusieurs composants tels que l'interface, les serveurs de données et les serveurs applicatifs avec leurs
interfaces programmatiques'. Cette stratégie, à la base des systèmes dits clients/serveurs ne résout pas pour
autant les problèmes d'interopérabilité sémantique. Les bases de données traditionnelles utilisent des modèles
multiples et éventuellement conflictuels (par exemple, incohérence entre les sémantiques associées à des
modèles de données hétérogènes, hiérarchiques, en réseau ou relationnels; conflits entre les dictionnaires de
données).
La documentation a posteriori de la sémantique des données contenue dans les systèmes en production est une
tâche considérable. Elle rend nécessaire la lecture du code source, l'analyse des applications en situation réelle de
fonctionnement et éventuellement une enquête approfondie auprès des utilisateurs et/ou des programmeurs sur
leur compréhension des informations manipulées. Une étude de Jarvis et col. estime que l'effort de
documentation peut demander de 4 à 12 heures par élément de donnée [13].
1. Application Programming Interface ou API
Les barrières entre systèmes d'information disparaissent progressivement. Ainsi, les systèmes d'information
hospitaliers sont amenés à s'ouvrir sur l'extérieur dans la perspective de constitution de réseaux de soins couvrant
aussi bien les soins primaires que secondaires ou tertiaires. Les composants d'un tel réseau de soins ont toutes les
chances d'avoir été développés par des équipes indépendantes de programmeurs. La probabilité, par exemple,
pour que deux concepteurs de bases de données utilisent le même nom pour représenter un même concept est
très faible (inférieure à 10% dans une étude de Fumas et collaborateurs) [14]. A chaque fois qu'un nouveau
composant est ajouté dans le réseau, de nouveaux problèmes d'interopérabilité sémantique apparaissent.
Une mauvaise interprétation sémantique est fréquente lorsque des données ou des procédures "anciennes" sont
utilisées dans un contexte qui n'avait pas été prévu initialement par les concepteurs, comme par exemple le fait
de pouvoir recevoir des données de l'extérieur. La signification réelle des données et des procédures est rarement
explicite, ce qui oblige les demandeurs et les consommateurs de services à faire des suppositions a posteriori.
Les connaissances (médicales) évoluent de façon permanente et les vocabulaires doivent constamment être
adaptés. L'ajout de nouveaux termes a nécessairement des répercussions complexes sur la signification des
termes préexistants.
La variabilité dans l'utilisation du langage varie considérablement entre les professionnels de santé (par exemple
entre un étudiant et un expert) de même qu'entre des groupes de professionnels de spécialités, de régions ou de
cultures différentes. Ainsi, pour être capable de réinterpréter un élément d'un dossier médical, tel qu'un
diagnostic, il serait utile d'enregistrer la confiance que le médecin a sur le diagnostic qu'il propose, mais
également la métain-formation sur la confiance que l'on peut avoir en général sur les diagnostics établis par ce
médecin. L'augmentation des connaissances ne peut qu'accroître la variabilité entre les professionnels dans
l'utilisation d'un langage.
4 Discussion et conclusion
La mise en place progressive de réseaux de communication constitue l'infrastructure sur laquelle pourront être
batis les futurs systèmes d'information de santé. Elle implique de la part des producteurs une stratégie de
développement d'applications interopérables. L'utilisation de standards d'échanges de messages est une première
étape vers une interopérabilité
des systèmes d'information. La situation est rendue complexe dans le secteur de la santé du fait de la coexistence
de standards génériques, tels qu'ASN.1, et de standards plus spécifiques tels qu'HL7, ASTM, EDIFACT ou
DICOM et dont les domaines d'utilisation se recoupent. S'il est peu probable, à court terme, qu'un standard de
message unique pour le secteur de la santé se constitue, on ne peut que favoriser l'utilisation de standards
internationaux actuels en effectuant les choix sur la base de leur couverture fonctionnelle et géographique.
Certains standards proposent des champs pour une adaptation nationale ou institutionnelle. Il importe cependant
de souligner que telles adaptations génèrent un risque d'hétérogénéité et finalement peuvent conduire à un
résultat contraire à l'objectif cherché. La coexistence, à un moment donné, de plusieurs standards d'échanges
n'est pas un obstacle insurmontable à l'interopérabilité des applications dans la mesure ou des outils génériques
peuvent être conçus et développés pour passer de façon transparente d'une structure de message à une autre.
Le choix des référentiels terminologiques est une question cruciale qui est généralement sous-estimée par les
acheteurs et les utilisateurs. Il participe trop souvent d'une approche des systèmes d'information uniquement
basée sur les besoins identifiés à un instant donné. On connaît les défauts de cette approche : l'expression des
besoins est incomplète, limitée, redondante en fonctions des besoins propres de chaque catégorie d'utilisateurs,
non évolutive,... De plus, la maintenance et l'évolution des référentiels est sous estimée et mal maîtrisée.
L'obtention, dans une communauté de professionnels, d'un consensus sur le sens des données passe par
l'implication d'un grand nombre d'acteurs : les concepteurs, les développeurs comme les utilisateurs des
applications. Ces personnes auront à associer le sens et la signification de toutes les parties des applications avec
des données, des noms de procédures ou des hiérarchies de concepts dans des référentiels. Lors de la conception
ou du développement d'une application, la réalisation d'un dictionnaire exhaustif des données permet d'expliciter
une partie de la sémantique et d'éviter que celle-ci reste cachée dans les programmes [15]. La réalisation
d'interfaces adaptés et d'aides en ligne, par exemple pour l'accès aux référentiels, peut faciliter le travail des
utilisateurs et réduire la variabilité intra et inter-utilisateurs dans l'utilisation des applications.
Références
[1] Wegner P. Interoperability. ACM Computing Survey 1996; 28 (1): 285-7.
[2] Graeber S. Communication Services for a Distributed Hospital Information System. Meth Information in
Medicine. 1996; 35 (3): 230-4 1.
[3] O'Moore RR, De Moor GJE, Boran G, Gaffney P, Grimson J, McNair P, et al. Open-Labs : the application of
advanced informatics and telematics for optimization of clinical laboratory services. Computer Methods and
Programs in Biomedicine, 1994; 45 137-40.
[4] Orfali R, Harkey D, Edwards J. The Essential Client/server Survival Guide. 2d edition. New York: John
Wiley & Sons, 1996.
[5] Heiler S. Semantic interoperability. ACM Computing Survey 1995; 27 (2): 271-3.
[6] American Society for Testing and Materials. ASTM E1238-94. Standard Specification for Transferring
Clinical Observations Between Independent Computer Systems. Philadelphia, PA: ASTM, 1994.
[7] Alsafadi Y, Liu Sheng O.R, Martinez R. Comparison of Communication Protocols in Medical Information
Exchange Standards. Proceedings IEEE Seventh Symposium on Computer-Based Medical Systems, 1994, pp.
258-63.
[8] CEN/TC 25 I/PT 004. Investigation of Syntaxesfor Existing Interchange formats to be used in Healthcare.
Technical Report approved by CEN/TC 251 on 26.01.93.
[9] De Moor G. A European Clinical Laboratory Data Exchange Standard. In: Van Goor J et Christensen JP
(eds). Advances in Medical Infonnatics. Amsterdam : IOS Press, 1992;pp.108-16.
[10] Ostler DV, Harrington JJ, Hannemyr GA. common reference model for healthcare data exchange - P 1157
MEDIX system architecture. Proc. l4th Annu Symp Comput Appl Med Care. Washington, DC: IEEE Computer
Society Press, 1990; pp. 235-8.
[11] Harrington JJ. IEEE P1157MEDIX.- A Standardfor Open Systems Medical Data Interchange, New York
City, NY: IEEE, 1993.
[12] Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer 1992, 25 (3):
38-49.
[13] Jarvis T. Presentation at GTE TISC Database Workshop, Tampa, FL, April 1992. (cited in [5]).
[14] Furnas G, Landauer 1K, Gomez LM, Dumais ST. The vocabulary problem in human-system
communication. Comm ACM 1987: (30): 964-7 1.
[15] Cimino JJ. Data Storage and Knowledge Representation for Clinical Workstations. International Journal of
Bio-Medical Computing, 1994; 34: 185-94.
[16] Cimino JJ. Saying what you mean and meaning what you say: coupling biomedical terminology and
knowledge.
Téléchargement