MÉTROLOGIE, SCIENCE DE LA MESURE Livre : Examen clinique de l’appareil locomoteur Joshua Cleland I - Métrologie, concept général A) Incertitude COSMIN = COnsensus-based Standard for the selection of health Measurement INstruments B) Pourquoi mesurer ? Identifier, évaluer et quantifier la gravité d’un trouble relevant des compétences du kinésithérapeute Marquer un point de départ pour suivre l’évolution positive ou négative du traitement Évaluer la demande et les besoins du patient Établir une valeur de référence qui permettra de suivre le devenir au fil du temps C) Quoi mesurer ? Les structures et les fonctions Elles se traduisent par une altération d’une fonction, perte de substance d’une structure, anatomique, physiologique ou psychologique. On mesure alors une déficience. Les activités Le problème se caractérise par la réduction d’une capacité à pouvoir accomplir une tâche, une action dans les limites normales de l’activité humaine. On mesure alors une limitation. La participation Il s’agit du préjudice qui interdit à une personne de pouvoir mener et accomplir un rôle considéré comme normal compte tenu de l’âge, du sexe et des facteurs socio-culturels. On mesure alors une restriction. Ex de participation : relation avec les autres, travail Les facteurs environnementaux. Ce sont des éléments extrinsèques à l’individu mais qui vont jouer un rôle fondamental dans l’aggravation ou la résolution de problèmes relatifs aux 3 premières entités. On mesure alors les facteurs contextuels facilitateurs ou inhibiteurs. D) Quelles sont les qualités nécessaire à un test ? Que cette information soit fiable, c’est-à-dire, intrinsèquement au moins rejetable sinon reproductible. C’est la première des qualités incontournable d’un test. Qu’elle soit valide, c’est-à-dire qu’elle reflète bien la réalité de ce qu’elle est sensée représentée, directement ou indirectement Qu’elle soit sensible au changement, c’est-à-dire qu’elle puisse rapidement et précisément détecter une variation de l’état du patient (mesure indirecte) Qu’elle ait un sens clinique, qu’elle soit utile, c’est-à-dire qu’elle puisse donner une signification claire au regard de quelque chose. E) Information subjective ou objective ? La douleur est une notion totalement subjective mais dont la mesure à l’aide de l’Echelle Visuelle Analogique ou le questionnaire de Saint Antoine, se révèle fiable, valide et avec un grand sens clinique. A l’opposé, la force musculaire est une donnée objective bien plus délicate à mesurer de façon fiable, elle dépend de variables mécaniques, tissulaires, neurologiques, comportementales, dont certains sont difficiles à maîtriser. 1 II - Fiabilité A) Facteurs de variabilité Le thérapeute : souvent tendance à orienter les données dans l’autre sens → grille d’évaluation qui ne met pas en jeu le thérapeute Le patient ex : la force musculaire est liée la bonne volonté du patient L’instrument de mesure: marge d’erreur donnée par l’instrument, peu d’impact Les facteurs pré-analytiques (ce qu’on fait avant d’arriver au cabinet ou rdv) La propagation des erreurs : système où une variable est calculée à partir d’une valeur mathématique. Utilisation de tests sous-maximaux pour les personnes les moins sportives (dans les cabinets) → prise en compte de nombre variables qui induisent à une grande erreur B) Répétabilité Étroitesse de l’accord entre les résultats de mesurages successifs d’une même mesurande, mesurages effectués avec l’application de la totalité des mêmes conditions de mesure => Fiabilité intra examinateur C) Reproductibilité Étroitesse de l’accord entre le résultats des mesurages d’une même mesurande, mesurage effectués en faisant varier les conditions de mesures. Dans les 2 cas, les évaluateurs font varier les résultats. => Fiabilité inter examinateur 2 Vérifier la fiabilité d’un test clinique Un échantillon/Une population suffit : c’est la population cible L’examinateur doit être le plus objectif possible et ne pas savoir les mesures de l’autre examinateur. Intra examinateur : un seul et même examinateur Inter examinateur : les 2 examinateurs sont différents La question de l’ordre est importante: il faut réduire les parts pour avoir une objectivité maximale. D) Pourquoi un traitement statistique ? Concordances liées au hasard. Test dichotomique : positif ou négatif. 2 résultats sont tirés au sort pour chaque individu mesuré (PP, NP, PN, NN). Au total : concordance dans 50% des mesures liées au hasard. E) 2 traitement statistiques possible : Variable qualitative => dichotomique, ordinale, catégorielle => coefficient de Kappa = K (entre 0 et 1, 1= tout à fait concordant) Variable quantitative => continues, discrète => coefficient de corrélation intra-classe : ICC F) Indices et interprétations Au-delà de 0,8, le résultat est utilisable. En-dessous de 0,8, il faut faire d’autres tests au patient. Pour les études de recherche, 0,7 est suffisant. 3 Ex : Sur un patient en coucher ventral, l’examinateur applique une force postéro-antérieure sur les processus épineux et les facettes tombales de chaque vertèbre. La mobilité de chacun des segments est jugée comme « normal » ou « réduite ». Si valeur négative : le test évalue l’évaluateur et non le patient Ce test n’a aucune utilité cliniquement. Ex : Médialisation et direction préférentielle Descriptions et signes positifs 2 examinateurs avec plus de 5 années d’entraînement à la méthode de McKenzie ont évalué tous les patients et déterminé quand la médialisation survenait à l’occasion de mouvements répétés. Si la médialisation apparaît, le clinicien repère la direction préférentielle. Fiabilité inter-examinateur, K s’il y a médialisation = 0,70. K en relation avec la médialisation et les directions préférentielles = 0,90. Ce genre de test peut être utilisé. Ex : Test de 6min de marche Osteoarthritis: (Kennedy et al, 2005, Osteoarthritis) Excellent test-retest reliability (ICC = 0.94) Excellent test-retest reliability (ICC = 0.99) Excellent test-retest reliability for VO2 (ICC = 0.99) ICC= Coefficient de Corrélation Intra-classe 4 Ex : Cas particulier des questionnaires ensemble de questions qui produisent des scores score par question score final 2 problèmes de fiabilité Pour qu’il soit exploitable, il faut qu’il soit quantifié. La consistance interne d’un questionnaire est évalué par le coefficient alpha de Cronbach qui est le plus employé dans l’étude de la fiabilité (score de 0,7 : pour qu’il soit valable) Étudie les corrélations inter-items, corrélation item- total et consistance interne avec ou sans item. La fiabilité se mesure sur 2 composantes : la cohérence interne par le coefficient alpha calcul de l’ICC sur le score final Neck Disability Index - 10 items noté de 0 à 5 qui évalue le retentissement fonctionnel de tous les troubles cervicaux - score final de 0 à 50 - (Shaheen et al ; n = 65, mean age = 41.3 (10.2) years) Excellent test retest reliability (ICC = 0.96) - (Shaheen et al, 2013) Excellent internal consistency (Cronbach alpha= 0.89) - (Cleland et al, 2006) SEM = 4.4 (on a scale of 0 - 50) - (Young et al, 2009) MDC = 10.2 (on a scale of 0 – 50) MDC=Minimum Detectable Changement SEM=Standart Error of Measurement Le test a un bon ICC et une bonne cohérence interne, il peut donc être utilisé en clinique. III - Réactivité A) Erreur standard de mesure Définition C’est la valeur en plus et en moins autour de chaque mesure qui constitue la marge d’erreur. Les marges sont différentes en fonction de la pathologie étudiée. L'erreur standard évalue la stabilité de réponse d’une mesure. C’est la variation d’une mesure répétée, en terme statistique, il s’agit de l’écart type de la moyenne. Elle donne un intervalle dans lequel se situe la vraie valeur sans savoir exactement où elle se situe. Plus cet intervalle est étroit, plus la mesure a des chances de se rapprocher de la vraie valeur. 5 Test de 6 minutes de marche Osteoarthritis: (Kennedy et al, 2005; n = 150; mean age = 63.7 (10.7) years; diagnosis of OA, Osteoarthritis) SEM = 26.29 meters Stroke: (Eng et al, 2004; n = 12; mean age = 62.5 (8.6) years; mean time since stroke onset = 3.5 (2.0) years, moderate motor deficits, Chronic Stroke) SEM=12.4 meters => Les qualités métriques des tests dépendent aussi des pathologies dans les quelles elles sont testées B) Changement minimum détectable C’est une valeur dans un instrument qui indique le montant minimum de changement nécessaire pour le patient pour qu’elle soit détectable. En d’autre terme, c’est le montant minimum de changement dans le score d'un patient qui assure que cette différence de score n’est pas le résultat d'une erreur de mesure. MDC=SEM*1,96*√2 Test de 6min de marche Interprétation : Si une personne atteinte d’un AVC dépasse 34m lors du deuxième test de marche, on peut dire que le kiné a participé à l’amélioration du patient Conclusion Le praticien, lorsqu’il emploie un test ou une mesure quelconque doit connaître : son indice de fiabilité l’erreur standard de mesure le minimum de changement détectable dans la population identique à son patient Il doit se conformer au protocole stricte de mise en application du test (position du patient, position de l’outil, mains, consignes, facteurs pré-analytiques) le non respect de ces règles conduisent au mieux à un diagnostic aléatoire, au pire faux, conduisant à des traitements inutiles ou délétères. Test de 6 minutes de marche Osteoarthritis: Excellent test-retest reliability (ICC = 0.94) Osteoarthritis: SEM = 26.29 meters Osteoarthritis: MDC = 61.34 meters Fiabilité très bonne du test Ex: Neck Disability Index • 10 items de noté de 0 à 5 • score final de 0 à 50 • (Shaheen et al, 2013; n = 65, mean age = 41.3 (10.2) years) Excellent test retest reliability (ICC = 0.96) 6 • (Shaheen et al, 2013) Excellent internal consistency (Cronbach alpha= 0.89) • (Cleland et al, 2006) SEM = 4.4 (on a scale of 0 - 50) • (Young et al, 2009) MDC = 10.2 (on a scale of 0 – 50) IV - Validité d’une mesure A) Cas clinique On évalue la proprioception lombaire par un test d’équilibre sur ballon (enregistrement de la surface de déplacement) fiabilité : ICC : 0,71 Mme X suit une rééducation proprioceptive du dos : mouvement contrôlés anté-rétroversion exercice assis sur un plateau capteur de force Le test est effectué chaque semaine pour suivre l’évolution Résultat : Courbe de progression La mesure est effectuée sur une patiente qui ne suit aucune rééducation Vous avez mesuré la courbe d’apprentissage au test. Toute évaluation produit un effet sur le vivant. Cet effet modifie la valeur de l’évaluation. La mesure est donc fiable mais non valide : elle ne reflète pas la variable recherchée. B) Test de 6 minutes de marche Le test mesure la tolérance à l’effort, test sous maximal d’effort le test mesure la distance mesure d’un paramètre théoriquement dépendant C) Vérifier la validité - Le test mesure-t-il vraiment ce qu’il est sensé mesuré, c’est à dire la tolérance à l’effort ? - Comparer la mesure de terrain avec une autre variable dont on sait qu’elle exprime la tolérance à l’effort = difficile - VO2 max en laboratoire : mesure de la capacité aérobie, mais : test maximal ! → inopérant pour les personnes en difficulté D) Coefficient de corrélation r Calculer une corrélation variables qui ne sont pas les mêmes regarder si les variations des mesures sont identiques : covariance Ex test de 6min de marche comparé avec d’autres tests : Comparaison avec d’autres variables dépendantes de la tolérance à l’effort Excellent concurrent validity with: 10 Meters Walk Test (r = -0.95) Adequate concurrent validity with: Timed Up and Go (r = -0.88) → test : se lever de la chaise, aller vers un plot, faire le tour, et revenir s’asseoir sur la chaise Poor concurrent validity with Walking Index (r = 0.60) 7 Test étudié Pour vérifier la validité d’un test , il faut : -le comparer avec une variable directe, similaire ou dépendante Plusieurs façons de vérifier la validité d’un test : -la validité de critère concourante (le gold standard), validité de critère concourante ou validité de critère prédictive. Exemple de la douleur : pas de gold standart notion subjective impossible à mesurer directement instruments : EVA, EVN, questionnaire de Saint Antoine, Echelle doloplus, algoplus EVA, EVN Echelle de 11 points côtés de 0 à 10 sont construites pour mesurer la même variable NRPS= Numeric Pain Racing Scale VAS= Visual Analogue Scale Doloplus : Échelle d’évaluation comportementale de la douleur chez les personnes âgées présentant des troubles de la communication verbale comparaison avec VAS 8 Association de la fiabilité et de la validité passé : l’épreuve de fiabilité, de validité et de réactivité pour Tout test doit être être utilisable en pratique clinique. Tout test doit être passé : une épreuve de validité pour être mis en service Obligation de passer les épreuves de fiabilité, validité et réactivité avant toute utilisation clinique Etat des tests et mesures dans les différents domaines : domaine cardio-respiratoire : peu ou pas de test sans fiabilité ni validité (engagement du pronostic vital, lien historiquement important avec les médecins, recherche dynamique) domaine neurologique : peu de tests n’ayant pas passé l’épreuve qualitative métrologique mais il en existe. domaine musculo-squelettique : très nombreux test sans aucune fiabilité ni validité (activité plus libérale, moins de lien avec le monde médical, pathologies mal maîtrisées comme les douleurs rachidiennes, très nombreuses personnes atteintes), domaine de prédilection des thérapies en tout genre : beaucoup prétendent à guérir les douleurs rachidiennes, peu se lancent sur la guérison de l’hémiplégie ! Déplacements passifs intervertébraux Fiabilité de l'évaluation des déplacements excessifs ou insuffisants des vertèbres entre elles Le patient est en pro cubitus. L’examinateur applique une force postéro-antérieure sur le processus épineux de T7 à L5. Chaque pression est tenue 20s. On considère le test est positif si la force déclenche une douleur. Toujours dans même position du patient. L'examinateur applique une force directement antérieure sur le processus épineux du segment à tester. On considère le test positif si la douleur est reproduite K=0,57 Tests de douleurs musculaires 9 Identification des vertèbres alignées On utilise une palpation statique pour déterminer l’alignement d'une vertèbre par rapport à sa voisine K=0,00 Détection d’une lésion segmentaire par associations de tests cliniques 2 cliniciens utilisent que l’analyse visuelle posturale, des descriptions de la douleur, des écarts de longueur des membres inférieurs, un examen neurologique, une palpation pendant les déplacements, une palpation statique et tout test orthopédique spécialisé pour mettre en évidence le niveau de lésion segmentaire Intra examinateur K = entre - 0,08 et 0,43 Inter examinateur K = entre - 0,16 et 0,25 Évaluations utilisées en ostéopathie : Les coefficients de Kappa montrent que ces tests ne sont pas fiables pour diagnostiquer des lésions ostéopathiques. 10 TESTS : SENSIBILITÉ, SPÉCIFICITÉ, VALEUR PRÉDICITVE Le test diagnostic Un bon test diagnostic doit : être fiable et reproductible être facile à appliquer et accepter par les biens portants (surtout si on doit le répéter assez souvent) n’avoir que peu d’effet secondaires être de coût modéré en outre, il doit être efficace, c’est-à-dire diminuer la mortalité ou la morbidité On définit un test diagnostic par les valeurs suivantes : vrais positifs (VP) vrais négatifs (VN) faux positifs (FP) faux négatifs (FN) valeur prédictive positive (VPP) valeur prédictive négative (VPN) Malades Bien portants Total tests Valeur prédictive Tests positif Vrais positifs (VP) Faux positifs (FP) Total positifs (TP) VPP = VP/TP Tests négatif Faux négatifs (FN) Vrais négatifs (VN) Total négatifs (TN) VPN = VN/TN Total tests Totals malades (TM) Total (TBP) Sensibilité = VP/TM Spécificité = VN/TBP A APPRENDRE La sensibilité …… Elle est dans la catégorie des malades La spécificité est définie par la fréquence. C’est identifier les biens portants parmi les bien portants. En clinique, ce qui nous intéresse, c’est un test sensible avec un résultat négatif car on sait qu’il n’y aura rien, positif on ne sait pas ce qu’il y a. On utilise un test à l’inverse de sa définition : on attend qu’il soit négatif. Cela permet d’écarter une pathologie. Pareil : pour un test spécifique, on veut qu’il nous disent que les gens sont malades, on veut donc qu’il soit positif. On l’utilise pour confirmer un doute. Sensibilité et spécificité sont indépendants de la prévalence de la maladie dans la population. La prévalence peut influencer la capacité à avoir des résultats négatifs et positifs, elle influe sur la positivité du test. On résout ce problème en calculant des ratio de vraisemblance, s’utilise avec un homogramme. Le Rv positif est le résultat du rapport entre la probabilité d’avoir un test positif chez un sujet porteur d’une déficience et la probabilité d’avoir un test positif chez un sujet sain Le Rv négatif est le résultat du rapport entre la probabilité d’avoir un test négatif chez un sujet sain et la probabilité d’avoir un test négatif chez un sujet porteur d’une déficience. Rv positif > 5 pour qu’un test soit utile dans un diagnostic Rv négatif soit autour de 0,02 pour qu’un test soit utile dans un diagnostic 11