Informatique et santé Collection dirigée par P. Degoulet et M. Fieschi Paris, Springer-Verlag France Informatique et Gestion Médicalisée Rédacteurs : F. Kohler, M. Brémond et D.Mayeux Volume 9 Springer-Verlag France, Paris , 1997 Les enjeux de l'interopérabilité sémantique dans les systèmes d'information de santé Patrice Degoulet (a), Marius Fieschi (b) et Christophe Attali (c) a Hôpital Broussais, Service d'Informatique Médicale, 96 rue Didot, 75014 Paris b Hôpital de la Timone, Département d'Information Médicale, rue Saint-Pierre, 13385 Marseille c Ministère du Travail et Affaires Sociales, 8 avenue de Ségur 75007 Paris Abstract Rapid development of community health information networks raises the issue of semantic interoperability between distributed and heterogeneous components. Indeed, operational health information systems originate from heterogeneous teams of independent developers and have to cooperate in order to exchange data and services. A good cooperation is naturally based on a good understanding of the messages exchanged between the systems. The main issue of semantic interoperability is to ensure that the exchange is not only possible bus also meaningful. Informatique et Santé, 1997 (9) : 203-212 1 Introduction L'efficacité et l'efficience des systèmes d'information de santé doivent être améliorées significativement si l'on souhaite garantir la qualité des soins tout en respectant les contraintes budgétaires. Il s'agit, tout d'abord, de relier les différents acteurs du système de santé afin de pallier les limites de l'exercice isolé, d'assurer une prise en charge globale des patients et de garantir la continuité des soins. Il s'agit, également, de maîtriser les coûts des systèmes de soin et d'en piloter le fonctionnement global et les adaptations en fonction de l'évolution des connaissances et des pratiques médicales. Un système d'information de santé nécessite une infrastructure de communication assurant la liaison entre les différents acteurs du réseau de soins : professionnels des secteurs hospitalier et extra-hospitalier de production des soins, organismes de financement et d'évaluation, secteurs de l'enseignement et de la recherche. Cette infrastructure, qui fait appel à une multitude de moyens de traitement de l'information (ordinateurs) et de communication (réseaux), est illustrée par le schéma de la figure 1. L'accès aux données individuelles d'un patient peut se faire, sous réserve du respect des règles de sécurité et de protection des données nominatives, à partir de postes de travail situés à l'hôpital, dans le cabinet du médecin, voire au domicile des patients. En même temps qu'aux données individuelles, il convient d'accéder aux systèmes documentaires et aux banques de connaissances permettant d'optimiser les décisions médicales. Certaines données, une fois "filtrées", validées et éventuellement anonymisées, sont transmises aux organismes de financement et de contrôle ou intégrées dans des bases de données épidémiologiques ou de recherche. Dans un tel réseau de soins, les données sont réparties sur plusieurs serveurs qu'il importe alors de faire coopérer harmonieusement. 12objectif pour l'ingénieur responsable du développement du réseau est de fournir aux utilisateurs la vision d'un système "virtuel" unique et homogène, alors que l'information est distribuée sur des environnements hétérogènes. L'objectif pour les utilisateurs est de pouvoir accéder de façon simple et transparente aux informations et connaissances utiles, quelles qu'en soient la localisation ou les modalités de stockage. Cette vision unifiée, au travers d'un poste de travail banalisé jouant le rôle d'assistant intelligent, est illustrée dans le schéma de la figure 2. 2 L'interopérabilité des systèmes d'information 2.1 Principes généraux et objectifs L'interopérabilité entre les composants d'un système d'information distribué peut se définir comme la capacité de ces composants à échanger des services et des données [1]. Elle repose sur des conventions adoptées entre les parties communicantes et régissant, entre autres, les protocoles d'échange de messages, la désignation des procédures à activer ou les codes d'erreur retournés. Elle présente une dimension statique (comme, par exemple, la compatibilité des types de données) et une dimension dynamique (comme la compatibilité des procédures). L'interopérabilité repose tout d'abord sur l'interconnectivité des composants, qui est elle-même régie par le respect de normes et de standards informatiques de communication. Les standards de communication consistent en des spécifications techniques qui se traduisent par des définitions et des règles d'ingénierie, de façon à assurer que les produits, les traitements et les services remplissent bien leur rôle. Les messages médicaux ne diffèrent pas fondamentalement des messages d'autres secteurs professionnels. Ils ont une syntaxe (une forme) et une sémantique (un sens). A un sens, peuvent correspondre plusieurs formes, ce qui est naturel, mais l'inverse peut aussi être vrai si l'on modélise mal (ou pas du tout) le domaine dans lequel les échanges sont effectués. L'interopérabilité syntaxique propose une intégration de premier niveau, que l'on peut appeller intégration syntaxique, en définissant notamment la nature, le type et le format des messages échangés, Elle conduit à la notion de système ouvert permettant d'assumer l'hétérogénéité des composants (interfaces, langages de programmation, etc.) [2-4]. Ce premier niveau est toutefois insuffisant : la cohérence formelle des messages ne garantit pas, par elle-même, la cohérence des significations perçues par les différents utilisateurs d'un système (figure 3). Une intégration de second niveau, l'intégration sémantique basée sur l'interopérabilité sémantique, est donc nécessaire qui prolonge et complète la précédente. L'objectif de l'interopérabilité sémantique est ainsi d'assurer que les échanges qui s'effectuent entre les composants interconnectés conservent leur sens, c'est à dire que les parties communicantes ont une compréhension commune de la signification des données et des services qu'elles échangent [5]. L'interopérabilité sémantique est une réponse à l'hétérogénéité sémantique des informations traitées par les différentes applications. Elle implique que les divers utilisateurs partagent des vues cohérentes sur les systèmes de concepts sous-jacents aux diverses applications (figure 4). Ainsi, par exemple, la signification de la valeur 100 d'un champs de donnée dépend du concept associé (par exemple la pression artérielle) qui peut être décrit partiellement dans les dictionnaires de données des logiciels d'application, mais également de l'unité, de la méthode de mesure utilisée ou du degré de précision. Figure 4 : Les deux niveaux de l'interopérabilité des systèmes d'information : syntaxique et sémantique 2.2 La multiplicité des syntaxes La situation actuelle est caractérisée par une multiplicité de standards d'échanges de messages, chacun caractérisé par une syntaxe et un domaine privilégié d'utilisation. Ainsi, le standard ASTM 1238 est adapté à la transmission de résultats biologiques et le standard DICOM à la transmission d'images radiologiques [6-8]. L'hétérogénéité des syntaxes n'est cependant pas un obstacle absolu à l'interopérabilité des systèmes d'information. Il est en effet toujours possible de concevoir des modèles plus génériques et des outils de traduction d'une syntaxe dans une autre. Ainsi, par l'intermédiaire de l'un de ses groupes de travail (TC 25 1), le Comité Européen de Normalisation (CEN) a réalisé une étude comparative des caractéristiques syntaxiques des principaux messages médicaux [8]. Une des conclusions du rapport est que les spécifications sémantiques des messages sont plus importantes que le choix de la syntaxe utilisée pour supporter le format des messages. Considérant les particularités du domaine médical, de Moor fait remarquer que le développement de messages, sans tenir compte de la syntaxe qui n'entre en jeu qu'à la fin du processus, semble être la meilleure alternative pour satisfaire les besoins complexes et nombreux de communication dans le domaine de la santé [9]. Partant de ces hypothèses, le CEN/TC 251 ne recommande aucun format de message spécifique pour la totalité du domaine de la santé, mais il préconise une méthode de développement indépendante de la syntaxe, basée sur des descriptions générales de messages. Se pose alors le problème de l'harmonisation de différents modèles de données pour aboutir à un modèle générique commun de message. Au sein de VIEEE, le JWG-CDM (Joint Working Group for a Common Data Model, ou MEDIX) est en charge du développement d'un modèle de données commun (Common Data Model ou CDM) aux standards de l'informatique de Santé [10,11]. Les objectifs mis en avant par ce comité sont les suivants : • constituer une syntaxe commune pour la modélisation des données à partager, • établir un modèle objet du domaine de la Santé, • formaliser un processus de développement distribué des différentes parties du modèle commun à partir de sous-modèles (Subset Data Model ou SDM), • créer un répertoire central pour collecter les différents éléments du CDM. La figure 5 présente la façon dont les différents organismes normalisateurs coopèrent autour du modèle de donné commun et des sous-modèles. Figure 5: Le processus d'harmonisation du modèle de données dans l'approche IEEE/MEDIX 2.3 Vers un interopérabilité sémantique des systèmes d'information Un message peut être considéré comme un ensemble d'unités élémentaires ou atomes d'information, tels que des couples "attribut - valeur" (par exemple Glycémie 5.5 mmol/1). Les unités peuvent être regroupées en segments et/ou accepter des éléments de répétition pour former des structures plus complexes (par exemple, le résultat d'une hyperglycémie provoquée). Comme dans une phrase du langage naturel, la signification sémantique d'un message est basée sur la signification individuelle de chacun de ses éléments, sur la signification complémentaire qui résulte de la structure globale utilisée et sur les informations qui peuvent être dérivées des deux précédentes. Certains éléments peuvent représenter des informations contextuelles qui seront utiles à la transmission et l'interprétation correcte du message (par exemple, l'émetteur, le destinataire, la syntaxe utilisée ou la référence à un vocabulaire particulier). Les informations contextuelles, qui seront partagées par l'ensemble des éléments de message, sont souvent regroupées dans l'entête (header) ou la fin (trailer) du message. La compatibilité ou l'incompatibilité sémantique lors du processus création/interprétation des messages dépendent notamment de trois facteurs clés : • la terminologie ou les nomenclature Il s'agit de la façon dont les concepts s'expriment dans un vocabulaire contrôlé, ayant le statut de référentiel d'un domaine de connaissance ou d'activité. • les relations sémantiques explicites portant sur la terminologie Les relations peuvent être organisées dans un réseau sémantique. Celui-ci structure les liens entre les concepts du domaine, en en précisant la nature ; liens de synonymie, d'hétéronymie, de dérivation, etc. (par exemple PAS et Pression Artérielle Systolique ou angor et angine de poitrine pour des liens de synononymie). • la représentation des concepts dans les messages En général, deux institutions modélisent et représentent les concepts de façons diverses. Des exemples simples sont l'âge (modélisation de celui-ci ou de la date de naissance, ... ) et l'adresse d'une personne (séparation du numéro de la rue, du code postal, nombre de lignes, ... ). On pourrait citer de nombreux autres cas comme la modélisation de l'existence d'un symptôme par un stade (ou une gravité) ou simplement par oui ou non. Les deux premiers problèmes ont fait l'objet de nombreux efforts de recherche et développement. Il en résulte un ensemble de vocabulaires normalisés ou référentiels, dont la portée peut être locale, nationale ou internationale. La solution au troisième problème passe par une modélisation fine des messages en séparant ce qui est générique de ce qui peut être spécifique tant au niveau syntaxique que sémantique, La figure 6 illustre la situation pour deux messages simples M et M'. Le message M est produit par un composant émetteur A et le Message M' peut être compris par un composant recepteur B. Le message M est codé selon la syntaxe HL7 et chiffré. Ses concepts font référence au vocabulaire contrôlé ou référentiel RA qui modélise lui-même le domaine A -, on parle alors de l'ontologie OA du domaine (la production d'un message HL7 chiffré est considérée comme la sortie du composant A). M' (l'entrée du composant B) n'est pas chiffré, mais est codé en ASN. 1 et fait référence au référentiel RB qui modélise une ontologie OB. Nom du patient et nom de naissance sont considérés comme des synonymes exacts dans OA et OB. Les dates diffèrent par leur modalité de codage (jour/mois/année versus mois/jour/année). Les dosages d'azote et d'urée dans le sang ne font pas référence au même concept biologique (l'azote est un composant de l'urée) mais il existe un facteur de conversion connu pour passer des unités en mg/dl aux unités en mmol/l et de l'urée à l'azote ou vice-versa. Message M Emetteur : Composant A Syntaxe M: HL7 Cryptage : oui Référentiel : RA Ontologie: OA Nom du patient: Dupont Date de naissance :30/08/1938 Azote sanguin : 3.5 mmol/l Age à la découverte du cancer: 40 ans Message M' Receveur: Composant B Syntaxe M': ASN. 1 Cryptage : non Référentiel: RB Ontologie: OB Nom de naissance: Dupont Date de naissance : 08/30/38 Urée sanguine : 10 mg/dl Date de la découverte du cancer: [08/30/78 - 08/30/79] Figure 6 : Transformation d'un message Le problème technique de l'interopérabilité sémantique devient alors celui de la réalisation d'outils génériques capables de transformer un message quelconque M émis par un composant A en un message sémantiquement équivalent M', sachant que les messages peuvent différer par leur syntaxe, leurs modalités de codage et leur association à des référentiels différents. Dans l'exemple de la figure 6, les conversions peuvent être effectuées dans les deux sens. Dans une situation réelle, les conversions peuvent s'accompagner d'une perte d'information significative, voire être impossibles à effectuer. 70.0 mmHg est plus précis que 70 mmHg. Le nom d'un concept dans un référentiel RA peut avoir des homonymes dans le référentiel RB. L'ordre dans lequel des transformations successives doivent être effectuées n'est pas anodin. Dans l'exemple précédent, les données doivent être décryptées avant les changements de syntaxe. La figure 7 : illuste ce processus générique de transformation de messages par un outil informatique jouant le rôle d'un médiateur de communication [12]. 3 Les enjeux de Pinteropérabifité L'interopérabilité des systèmes d'information se définit donc à deux niveaux • la compatibilité syntaxique des messages échangés et • la compatibilité plus profonde du sens des messages ou compatibilité sémantique qui englobe la première, L'interopérabilité sémantique recherche une interopérabilité globale sur la signification des échanges, c'est à dire sur leur interprétation ou leur finalité. Cet aspect est crucial et constitue aujourd'hui le principal facteur limitant au développement d'applications intégrables dans des systèmes complexes. Le secteur de la santé, de par la complexité de ses systèmes d'informations, comme de la richesse des vocabulaires techniques utilisés, est particulièrement significatif à cet égard. Les exemples suivants montrent l'importance du problème et en illustrent les enjeux. De nombreuses applications actuellement opérationnelles sont le résultat d'une lente évolution à partir d'architectures plus anciennes dans lesquelles une grande partie de l'information sémantique était cachée dans les programmes d'applications. Les stratégies de migration retenues consistent habituellement à éclater les systèmes en plusieurs composants tels que l'interface, les serveurs de données et les serveurs applicatifs avec leurs interfaces programmatiques'. Cette stratégie, à la base des systèmes dits clients/serveurs ne résout pas pour autant les problèmes d'interopérabilité sémantique. Les bases de données traditionnelles utilisent des modèles multiples et éventuellement conflictuels (par exemple, incohérence entre les sémantiques associées à des modèles de données hétérogènes, hiérarchiques, en réseau ou relationnels; conflits entre les dictionnaires de données). La documentation a posteriori de la sémantique des données contenue dans les systèmes en production est une tâche considérable. Elle rend nécessaire la lecture du code source, l'analyse des applications en situation réelle de fonctionnement et éventuellement une enquête approfondie auprès des utilisateurs et/ou des programmeurs sur leur compréhension des informations manipulées. Une étude de Jarvis et col. estime que l'effort de documentation peut demander de 4 à 12 heures par élément de donnée [13]. 1. Application Programming Interface ou API Les barrières entre systèmes d'information disparaissent progressivement. Ainsi, les systèmes d'information hospitaliers sont amenés à s'ouvrir sur l'extérieur dans la perspective de constitution de réseaux de soins couvrant aussi bien les soins primaires que secondaires ou tertiaires. Les composants d'un tel réseau de soins ont toutes les chances d'avoir été développés par des équipes indépendantes de programmeurs. La probabilité, par exemple, pour que deux concepteurs de bases de données utilisent le même nom pour représenter un même concept est très faible (inférieure à 10% dans une étude de Fumas et collaborateurs) [14]. A chaque fois qu'un nouveau composant est ajouté dans le réseau, de nouveaux problèmes d'interopérabilité sémantique apparaissent. Une mauvaise interprétation sémantique est fréquente lorsque des données ou des procédures "anciennes" sont utilisées dans un contexte qui n'avait pas été prévu initialement par les concepteurs, comme par exemple le fait de pouvoir recevoir des données de l'extérieur. La signification réelle des données et des procédures est rarement explicite, ce qui oblige les demandeurs et les consommateurs de services à faire des suppositions a posteriori. Les connaissances (médicales) évoluent de façon permanente et les vocabulaires doivent constamment être adaptés. L'ajout de nouveaux termes a nécessairement des répercussions complexes sur la signification des termes préexistants. La variabilité dans l'utilisation du langage varie considérablement entre les professionnels de santé (par exemple entre un étudiant et un expert) de même qu'entre des groupes de professionnels de spécialités, de régions ou de cultures différentes. Ainsi, pour être capable de réinterpréter un élément d'un dossier médical, tel qu'un diagnostic, il serait utile d'enregistrer la confiance que le médecin a sur le diagnostic qu'il propose, mais également la métain-formation sur la confiance que l'on peut avoir en général sur les diagnostics établis par ce médecin. L'augmentation des connaissances ne peut qu'accroître la variabilité entre les professionnels dans l'utilisation d'un langage. 4 Discussion et conclusion La mise en place progressive de réseaux de communication constitue l'infrastructure sur laquelle pourront être batis les futurs systèmes d'information de santé. Elle implique de la part des producteurs une stratégie de développement d'applications interopérables. L'utilisation de standards d'échanges de messages est une première étape vers une interopérabilité des systèmes d'information. La situation est rendue complexe dans le secteur de la santé du fait de la coexistence de standards génériques, tels qu'ASN.1, et de standards plus spécifiques tels qu'HL7, ASTM, EDIFACT ou DICOM et dont les domaines d'utilisation se recoupent. S'il est peu probable, à court terme, qu'un standard de message unique pour le secteur de la santé se constitue, on ne peut que favoriser l'utilisation de standards internationaux actuels en effectuant les choix sur la base de leur couverture fonctionnelle et géographique. Certains standards proposent des champs pour une adaptation nationale ou institutionnelle. Il importe cependant de souligner que telles adaptations génèrent un risque d'hétérogénéité et finalement peuvent conduire à un résultat contraire à l'objectif cherché. La coexistence, à un moment donné, de plusieurs standards d'échanges n'est pas un obstacle insurmontable à l'interopérabilité des applications dans la mesure ou des outils génériques peuvent être conçus et développés pour passer de façon transparente d'une structure de message à une autre. Le choix des référentiels terminologiques est une question cruciale qui est généralement sous-estimée par les acheteurs et les utilisateurs. Il participe trop souvent d'une approche des systèmes d'information uniquement basée sur les besoins identifiés à un instant donné. On connaît les défauts de cette approche : l'expression des besoins est incomplète, limitée, redondante en fonctions des besoins propres de chaque catégorie d'utilisateurs, non évolutive,... De plus, la maintenance et l'évolution des référentiels est sous estimée et mal maîtrisée. L'obtention, dans une communauté de professionnels, d'un consensus sur le sens des données passe par l'implication d'un grand nombre d'acteurs : les concepteurs, les développeurs comme les utilisateurs des applications. Ces personnes auront à associer le sens et la signification de toutes les parties des applications avec des données, des noms de procédures ou des hiérarchies de concepts dans des référentiels. Lors de la conception ou du développement d'une application, la réalisation d'un dictionnaire exhaustif des données permet d'expliciter une partie de la sémantique et d'éviter que celle-ci reste cachée dans les programmes [15]. La réalisation d'interfaces adaptés et d'aides en ligne, par exemple pour l'accès aux référentiels, peut faciliter le travail des utilisateurs et réduire la variabilité intra et inter-utilisateurs dans l'utilisation des applications. Références [1] Wegner P. Interoperability. ACM Computing Survey 1996; 28 (1): 285-7. [2] Graeber S. Communication Services for a Distributed Hospital Information System. Meth Information in Medicine. 1996; 35 (3): 230-4 1. [3] O'Moore RR, De Moor GJE, Boran G, Gaffney P, Grimson J, McNair P, et al. Open-Labs : the application of advanced informatics and telematics for optimization of clinical laboratory services. Computer Methods and Programs in Biomedicine, 1994; 45 137-40. [4] Orfali R, Harkey D, Edwards J. The Essential Client/server Survival Guide. 2d edition. New York: John Wiley & Sons, 1996. [5] Heiler S. Semantic interoperability. ACM Computing Survey 1995; 27 (2): 271-3. [6] American Society for Testing and Materials. ASTM E1238-94. Standard Specification for Transferring Clinical Observations Between Independent Computer Systems. Philadelphia, PA: ASTM, 1994. [7] Alsafadi Y, Liu Sheng O.R, Martinez R. Comparison of Communication Protocols in Medical Information Exchange Standards. Proceedings IEEE Seventh Symposium on Computer-Based Medical Systems, 1994, pp. 258-63. [8] CEN/TC 25 I/PT 004. Investigation of Syntaxesfor Existing Interchange formats to be used in Healthcare. Technical Report approved by CEN/TC 251 on 26.01.93. [9] De Moor G. A European Clinical Laboratory Data Exchange Standard. In: Van Goor J et Christensen JP (eds). Advances in Medical Infonnatics. Amsterdam : IOS Press, 1992;pp.108-16. [10] Ostler DV, Harrington JJ, Hannemyr GA. common reference model for healthcare data exchange - P 1157 MEDIX system architecture. Proc. l4th Annu Symp Comput Appl Med Care. Washington, DC: IEEE Computer Society Press, 1990; pp. 235-8. [11] Harrington JJ. IEEE P1157MEDIX.- A Standardfor Open Systems Medical Data Interchange, New York City, NY: IEEE, 1993. [12] Wiederhold G. Mediators in the architecture of future information systems. IEEE Computer 1992, 25 (3): 38-49. [13] Jarvis T. Presentation at GTE TISC Database Workshop, Tampa, FL, April 1992. (cited in [5]). [14] Furnas G, Landauer 1K, Gomez LM, Dumais ST. The vocabulary problem in human-system communication. Comm ACM 1987: (30): 964-7 1. [15] Cimino JJ. Data Storage and Knowledge Representation for Clinical Workstations. International Journal of Bio-Medical Computing, 1994; 34: 185-94. [16] Cimino JJ. Saying what you mean and meaning what you say: coupling biomedical terminology and knowledge.