BASES DE DONNÉES Vincent Lévy URC/CRC, Hôpital Avicenne, APHP, Bobigny INSERM U1153, Hôpital Saint Louis, Paris Types d’étude Essai thérapeutique Étude épidémiologique Guérison Sujet Malade Sujet Traité Non guérison Sujet Sain Sujet non Malade Etude pronostique Etude diagnostique et de dépistage Recherche clinique • Ensemble des activités de recherche visant à une meilleure compréhension des pathologies et à une amélioration de leur prise en charge • Diagnostique • Pronostique • Thérapeutique • Recherche translationnelle « From Bench to Bedside » Les différents types d’études (1) • Enquête épidémiologique à visée étiologique • Population de sujets sains au départ (en théorie) • Recherche de facteurs de risque intrinsèques ou environnementaux de développer la maladie • Etude pronostique • Population de malades • Etude de la performance de facteurs pronostiques à discriminer entre les différentes évolutions possibles de la maladie • Facteur temporel • Facteur temporel • État final étudié : survenue de la maladie • Etat final étudié : idem essai • Les facteurs de risque ou d’exposition peuvent dans certains cas être contrôlés (étude d’intervention) thérapeutique • Pas de possibilité de contrôler en général les facteurs pronostiques étudiés Les différents types d’études (2) • Etude diagnostique • Mélange d’une population de malades et • Etude pronostique • Population de malades non malades • Etude de la performance de facteurs • Etude de la performance de tests diagnostiques à discriminer entre les deux populations pronostiques à discriminer entre les différentes évolutions possibles de la maladie • Pas de facteur temporel • Facteur temporel • Etats alternatifs clairement définis (au • Etat final étudié : idem essai moins en théorie, absence de goldstandard…) • Le résultat d’un test est par définition non contrôlé thérapeutique • Pas de possibilité de contrôler en général les facteurs pronostiques étudiés Les différents types d’études (3) • Essai thérapeutique • Etude pronostique • Population de malades • Population de malades • Recherche de la stratégie thérapeutique qui • Etude de la performance de facteurs • Facteur temporel • Facteur temporel • État final étudié : guérir, améliorer, stabiliser • Etat final étudié : idem essai • Possibilité de contrôler le facteur • Pas de possibilité de contrôler en modifie l’histoire naturelle de la maladie de la manière la plus favorable pour le patient (et donc le pronostic !!!) ou simplement retarder thérapeutique pronostiques à discriminer entre les différentes évolutions possibles de la maladie thérapeutique général les facteurs pronostiques étudiés Pourquoi des bases de données • Projet scientifique ou de recherche clinique • => questions/ hypothèses (principales et secondaires) auxquelles un médecin investigateur souhaite répondre par le biais du recueil d’un certain nombre de paramètres (biologiques mais non exclusivement) Pourquoi des bases de données (2) • Mémoriser de nouvelles informations • Modifier les informations existantes • Retrouver simplement des informations mémorisées => Nécessité de structurer les informations Qu’est-ce qu’une donnée • Une donnée est une information • Représentation conventionnelle d'une information en vue de son traitement informatique Qu’est-ce qu’une base de donnée • Ensemble « volumineux » d’informations structurées mémorisées sur un support permanent Les questions • Pour qui ? • Par qui ? • Pour quoi faire ? • Pour combien de temps ? • Règlementation • Sécurisation Pour qui ? • Vous • Le service • Plusieurs service • Plusieurs types de structures • Plusieurs nationalités • Plusieurs pays • … Par qui ? • Vous ? • Le chef/ PH / PHC / MCU / PU / ami€ / bidouilleur /geek / père / mère / fils /… • Le DATA MANAGER Pour quoi faire et pour combien de temps • De la thèse de médecine • A l’essai randomisé incluant des patients sur plusieurs années.. • En passant par l’étude pronostique • Et beaucoup plus • 2 grands systèmes • Base locales : non accessibles via le web (ex : access) • Bases en lignes ; accessibles via le web par navigateur Quelques définitions Définitions (1) • Une base de données est constituée de tables • Une table est constituée de variables • Une variable est l’entité qui recevra la valeur à enregistrer • Exemple • Table : BIO • Variable : Hb • Valeur : 13.5 Définitions (2) • Un enregistrement correspond à l’ensemble des données dans une table • Exemple • Table : BIO Hb (g/dl) VARIABLES ENREGISTREMENT 001-0001-D-A 13,4 Créat (mg/dl) 0,65 ASAT (U/L) 57 Variable n Notion de clé primaire • Une clé primaire est une contrainte d'unicité qui permet d'identifier de manière unique un enregistrement dans une table Table : BIO 001-0001-D-A Hb (g/dl) Créat (mg/dl) ASAT (U/L) 13,4 0,65 57 Variable n • Définir une clé primaire signifie qu’il n’y aura qu’un seul enregistrement par patient (une ligne dans le tableau). Les doublons ne sont par autorisés Notion de clé primaire (2) • Il est possible de choisir plusieurs variables pour définir une clé primaire • ?? • Pour plusieurs enregistrements pour un même patient • Les doublons sont donc autorisés • Intérêt pour le suivi Notion de clé primaire (3) • Cas d’un enregistrement unique par patient La clé primaire (soulignée) = Référence Patient Référence Patient 001-0001-D-A Hb (g/dl) 13,4 Créat (mg/dl) 0,65 001-0001-D-A pas de doublon autorisé ASAT (U/L) 57 Variable N Notion de clé primaire (4) • Cas de plusieurs enregistrements par patient La clé primaire (soulignée) = Référence Patient + ConsulationDt (=date de consultation) Cette fois les doublons de la Référence Patient sont autorisés. C’est la combinaison Référence Patient + ConsultationDt qui devient unique. Donc… • Mesure unique • On utilise une variable comme clé primaire • La référence patient • Suivi • On utilise au moins 2 variables comme clé primaire • La référence patient + date de consultation Une base de données • Est donc un ensemble de tables • Comportant une suite de variables… TABLE BIOLOGIE Ref Patient Hb (g/dl) Créat (mg/dl) ASAT (U/L) … TABLE TRAITEMENT Ref Patient Medicament Date début Date fin … TABLE N Ref Patient Variable N1 Variable N2 … Système de gestion de base de données (SGBS) • Un Système de Gestion de Bases de Données (SGBD) est un logiciel qui permet de manipuler les informations stockées dans une base de données tout en cachant la complexité des opérations. • Un ensemble de services pour : • Contrôle simple de l'accès aux données • Accès aux informations à de multiples utilisateurs • Manipuler les données présentes dans la base (insertion, suppression, modification) Système de gestion de base de données (2) • Se décompose en trois sous-systèmes: • Gestion de fichiers pour le stockage des informations sur le support physique • Gestion de l'ordonnancement des informations • Interface avec l'utilisateur • Exemples • Microsoft Access • Microsoft SQL Server MySQL • OpenOffice.org Base • Oracle Database • … Système de gestion de base de données (3) • Utilisés en recherche clinique • Microsoft Access • CleanWEB (MySQL) • Clinsight (Oracle Database) • Oracle Clinical (Oracle Database) • Clintrial (Oracle Database) • OpenClinica (PostgreSQL) • Utilisation • CRF (case report form) papier + saisie dans une base de données • CRF électronique Data management Le Data Management est l'activité de gestion des données de la recherche clinique permettant d'obtenir une base de données cohérente et exploitable par les statisticiens afin de répondre aux objectifs de l'étude. Préparation de la base de données 1. Annotation du CRF 2. Dictionnaire des données 3. Création des tables 4. Schéma relationnel 5. Création du masque de saisie 6. Définition des contrôles de cohérence 7. Convention de saisie / Mode d’emploi 8. Test de la base Nécessite la collaboration de plusieurs intervenants i.e. Investigateur, chef de projet, ARC, Data Manager, Biostatisticien Annotation du CRF • Première étape pour structurer l’information du questionnaire dans une base de données • Traduire « informatiquement » le CRF • •Fractionner le CRF en groupes de données • Groupe de données => Table • •Annoter un CRF vierge en indiquant un nom de variable pour chaque items à saisir • Nom et type des variables, Liste des codes Dictionnaire des données • Description plus complète de la variable • Table où elle se situe • Nom de la variable • Type de la variable (texte, date, entier, réel…) • Format de la variable (taille, décimale…) • Unité • Libellé • Clé • Doit être revu par le Data Manager et le Statisticien Exemple Création des tables • Début de la construction de la base de données • Création des Tables dans le SGBD à partir du dictionnaire de données • Création manuelle dans le SGBD • Utilisation du langage SQL • Création automatique à partir du dictionnaire de données Schéma relationnel Création du masque de saisie • Espaces de saisie dans l'interface utilisateur comportant plusieurs zones • Texte, Cases à cocher, Listes, Boutons • Interactivité entre l’utilisateur et la base de données • Homogénéisation du format des entrées • Contrôle des entrées Saisie des données 1. Type de support 2. Réception des CRF papiers 3. Type de saisie 4. Sauvegardes Type de support • Cahier d’observation papier (CRF) • Saisie dans la base par un opérateur de saisie • Saisie faite à partir des CRF papiers • •Cahier d’observation électronique (eCRF) • Saisie directe par les investigateurs / TECs • Pas de support papier Type de saisie • Saisie simple • Double saisie • Indépendante • Confrontation des bases 1 et 2 par le Data Manager • Correction des erreurs en se basant sur le CRF • Interactive • En cas de discordance, une alerte est présentée au deuxième opérateur de saisie Etapes du data management Quelques conseils • Impliquer tous les intervenants dans la préparation • CP, Investigateur, ARC, TEC, Data Manager, Biostatisticien • •Ne pas « brûler » les étapes • Le temps « gagné » au début sera perdu à la fin • •Modifications du CRF en cours d’étude • Impact sur toutes les étapes du data management • Perte de temps • Risque (modifications sur une base en production) Revenir au plus simple… Quelques catégories de variables • Variables numériques • Entiers ou réels (variables biologiques) • Date/heures • Textes • Faible intérêt pour l’exploitation Un mot sur le contrôle qualité • Possible contrôle au moment de la saisie sur le formulaire • Dans les essais cliniques, principalement réalisés sur les variables du critère principal et secondaire… Les données manquantes • L’absence de la donnée est TOUJOURS un problème • Oubli ? • Donnée indisponible ? • 1er cas : donnée à récupérer • 2ième cas : plusieurs possibilités… • Si donnée manquante les abréviations conventionnelles • NF si non fait • ND si non disponible • NA si non applicable Un mot sur le tableur excel • Simple (en apparence) • Utile • Limité • Quelques conseils Quelques principes • Utiliser le TABLEUR • Et un MASQUE Le tableur • Case • 1 donnée et UNE SEULE • 1 donnée CODEE • 1 donnée UNIVOQUE • Intitulé des colonnes • Simple • Court • Sans accent • Sans caractères spéciaux • 1 seule ligne pour l’intitulé Le tableur (2) • Case • 1 donnée et UNE SEULE • 1 donnée CODEE • 1 donnée UNIVOQUE • Eviter les couleurs • Intitulé des colonnes • Simple • Court • Sans accent • Sans caractères spéciaux • 1 seule ligne pour l’intitulé Le masque • Le masque • Def : Système qui permet de forcer le format des données à entrer • Sous excel pour débutant recommandations • Intitulé de chaque colonne • Traduction en clair • Format des données de la colonne En guise de conclusion • Vous ne faites pas du NGS sur un coin de table… • Ne faites pas de bases de données dans votre coin…