bases de données

publicité
BASES DE DONNÉES
Vincent Lévy
URC/CRC, Hôpital Avicenne, APHP, Bobigny
INSERM U1153, Hôpital Saint Louis, Paris
Types d’étude
Essai thérapeutique
Étude épidémiologique
Guérison
Sujet Malade
Sujet Traité
Non guérison
Sujet Sain
Sujet non Malade
Etude pronostique
Etude diagnostique et de dépistage
Recherche clinique
•  Ensemble des activités de recherche visant à une
meilleure compréhension des pathologies et à une
amélioration de leur prise en charge
•  Diagnostique
•  Pronostique
•  Thérapeutique
•  Recherche translationnelle « From Bench to Bedside »
Les différents types d’études (1)
•  Enquête épidémiologique à visée
étiologique
•  Population de sujets sains au départ (en
théorie)
•  Recherche de facteurs de risque
intrinsèques ou environnementaux de
développer la maladie
•  Etude pronostique
•  Population de malades
•  Etude de la performance de facteurs
pronostiques à discriminer entre les
différentes évolutions possibles de la
maladie
•  Facteur temporel
•  Facteur temporel
•  État final étudié : survenue de la maladie
•  Etat final étudié : idem essai
•  Les facteurs de risque ou d’exposition
peuvent dans certains cas être contrôlés
(étude d’intervention)
thérapeutique
•  Pas de possibilité de contrôler en
général les facteurs pronostiques
étudiés
Les différents types d’études (2)
•  Etude diagnostique
•  Mélange d’une population de malades et
•  Etude pronostique
•  Population de malades
non malades
•  Etude de la performance de facteurs
•  Etude de la performance de tests
diagnostiques à discriminer entre les deux
populations
pronostiques à discriminer entre les
différentes évolutions possibles de la
maladie
•  Pas de facteur temporel
•  Facteur temporel
•  Etats alternatifs clairement définis (au
•  Etat final étudié : idem essai
moins en théorie, absence de goldstandard…)
•  Le résultat d’un test est par définition non
contrôlé
thérapeutique
•  Pas de possibilité de contrôler en
général les facteurs pronostiques
étudiés
Les différents types d’études (3)
•  Essai thérapeutique
•  Etude pronostique
•  Population de malades
•  Population de malades
•  Recherche de la stratégie thérapeutique qui
•  Etude de la performance de facteurs
•  Facteur temporel
•  Facteur temporel
•  État final étudié : guérir, améliorer, stabiliser
•  Etat final étudié : idem essai
•  Possibilité de contrôler le facteur
•  Pas de possibilité de contrôler en
modifie l’histoire naturelle de la maladie de
la manière la plus favorable pour le patient
(et donc le pronostic !!!)
ou simplement retarder
thérapeutique
pronostiques à discriminer entre les
différentes évolutions possibles de la
maladie
thérapeutique
général les facteurs pronostiques
étudiés
Pourquoi des bases de données
•  Projet scientifique ou de recherche clinique
•  => questions/ hypothèses (principales et secondaires)
auxquelles un médecin investigateur souhaite répondre
par le biais du recueil d’un certain nombre de paramètres
(biologiques mais non exclusivement)
Pourquoi des bases de données (2)
•  Mémoriser de nouvelles informations
•  Modifier les informations existantes
•  Retrouver simplement des informations mémorisées
=> Nécessité de structurer les informations
Qu’est-ce qu’une donnée
•  Une donnée est une information
•  Représentation conventionnelle d'une information en vue
de son traitement informatique
Qu’est-ce qu’une base de donnée
•  Ensemble « volumineux » d’informations structurées
mémorisées sur un support permanent
Les questions
•  Pour qui ?
•  Par qui ?
•  Pour quoi faire ?
•  Pour combien de temps ?
•  Règlementation
•  Sécurisation
Pour qui ?
•  Vous
•  Le service
•  Plusieurs service
•  Plusieurs types de structures
•  Plusieurs nationalités
•  Plusieurs pays
•  …
Par qui ?
•  Vous ?
•  Le chef/ PH / PHC / MCU / PU / ami€ / bidouilleur /geek /
père / mère / fils /…
•  Le DATA MANAGER
Pour quoi faire et pour combien de temps
•  De la thèse de médecine
•  A l’essai randomisé incluant des patients sur plusieurs
années..
•  En passant par l’étude pronostique
•  Et beaucoup plus
•  2 grands systèmes
•  Base locales : non accessibles via le web (ex : access)
•  Bases en lignes ; accessibles via le web par navigateur
Quelques définitions
Définitions (1)
•  Une base de données est constituée de tables
•  Une table est constituée de variables
•  Une variable est l’entité qui recevra la valeur à enregistrer
•  Exemple
•  Table : BIO
•  Variable : Hb
•  Valeur : 13.5
Définitions (2)
•  Un enregistrement correspond à l’ensemble des données
dans une table
•  Exemple
•  Table : BIO
Hb (g/dl)
VARIABLES
ENREGISTREMENT
001-0001-D-A
13,4
Créat (mg/dl)
0,65
ASAT (U/L)
57
Variable n
Notion de clé primaire
•  Une clé primaire est une contrainte d'unicité qui permet
d'identifier de manière unique un enregistrement dans
une table
Table : BIO
001-0001-D-A
Hb (g/dl)
Créat (mg/dl)
ASAT (U/L)
13,4
0,65
57
Variable n
•  Définir une clé primaire signifie qu’il n’y aura qu’un seul
enregistrement par patient (une ligne dans le tableau).
Les doublons ne sont par autorisés
Notion de clé primaire (2)
•  Il est possible de choisir plusieurs variables pour définir
une clé primaire
•  ??
•  Pour plusieurs enregistrements pour un même patient
•  Les doublons sont donc autorisés
•  Intérêt pour le suivi
Notion de clé primaire (3)
•  Cas d’un enregistrement unique par patient
La clé primaire (soulignée) = Référence Patient
Référence Patient
001-0001-D-A
Hb (g/dl)
13,4
Créat (mg/dl)
0,65
001-0001-D-A
pas de doublon autorisé
ASAT (U/L)
57
Variable N
Notion de clé primaire (4)
•  Cas de plusieurs enregistrements par patient
La clé primaire (soulignée) = Référence Patient +
ConsulationDt (=date de consultation)
Cette fois les doublons de la Référence Patient sont
autorisés. C’est la combinaison Référence Patient +
ConsultationDt qui devient unique.
Donc…
•  Mesure unique
•  On utilise une variable comme clé primaire
•  La référence patient
•  Suivi
•  On utilise au moins 2 variables comme clé primaire
•  La référence patient + date de consultation
Une base de données
•  Est donc un ensemble de tables
•  Comportant une suite de variables…
TABLE BIOLOGIE
Ref Patient
Hb (g/dl)
Créat (mg/dl)
ASAT (U/L)
…
TABLE TRAITEMENT
Ref Patient
Medicament
Date début
Date fin
…
TABLE N
Ref Patient
Variable N1
Variable N2
…
Système de gestion de base de données (SGBS)
•  Un Système de Gestion de Bases de Données (SGBD) est
un logiciel qui permet de manipuler les informations
stockées dans une base de données tout en cachant la
complexité des opérations.
•  Un ensemble de services pour :
•  Contrôle simple de l'accès aux données
•  Accès aux informations à de multiples utilisateurs
•  Manipuler les données présentes dans la base (insertion,
suppression, modification)
Système de gestion de base de données (2)
•  Se décompose en trois sous-systèmes:
•  Gestion de fichiers pour le stockage des informations sur le support
physique
•  Gestion de l'ordonnancement des informations
•  Interface avec l'utilisateur
•  Exemples
•  Microsoft Access
•  Microsoft SQL Server MySQL
•  OpenOffice.org Base
•  Oracle Database
•  …
Système de gestion de base de données (3)
•  Utilisés en recherche clinique
•  Microsoft Access
•  CleanWEB (MySQL)
•  Clinsight (Oracle Database)
•  Oracle Clinical (Oracle Database)
•  Clintrial (Oracle Database)
•  OpenClinica (PostgreSQL)
•  Utilisation
•  CRF (case report form) papier + saisie dans une base de données
•  CRF électronique
Data management
Le Data Management est l'activité de gestion des données
de la recherche clinique permettant d'obtenir une base de
données cohérente et exploitable par les statisticiens afin de
répondre aux objectifs de l'étude.
Préparation de la base de données
1.  Annotation du CRF
2.  Dictionnaire des données
3.  Création des tables
4.  Schéma relationnel
5.  Création du masque de saisie
6.  Définition des contrôles de cohérence
7.  Convention de saisie / Mode d’emploi
8.  Test de la base
Nécessite la collaboration de plusieurs intervenants i.e.
Investigateur, chef de projet, ARC, Data Manager,
Biostatisticien
Annotation du CRF
•  Première étape pour structurer l’information du
questionnaire dans une base de données
•  Traduire « informatiquement » le CRF
•  •Fractionner le CRF en groupes de données
•  Groupe de données => Table
•  •Annoter un CRF vierge en indiquant un nom de variable
pour chaque items à saisir
•  Nom et type des variables, Liste des codes
Dictionnaire des données
•  Description plus complète de la variable
•  Table où elle se situe
•  Nom de la variable
•  Type de la variable (texte, date, entier, réel…)
•  Format de la variable (taille, décimale…)
•  Unité
•  Libellé
•  Clé
•  Doit être revu par le Data Manager et le Statisticien
Exemple
Création des tables
•  Début de la construction de la base de données
•  Création des Tables dans le SGBD à partir du dictionnaire
de données
•  Création manuelle dans le SGBD
•  Utilisation du langage SQL
•  Création automatique à partir du dictionnaire de données
Schéma relationnel
Création du masque de saisie
•  Espaces de saisie dans l'interface utilisateur comportant
plusieurs zones
•  Texte, Cases à cocher, Listes, Boutons
•  Interactivité entre l’utilisateur et la base de données
•  Homogénéisation du format des entrées
•  Contrôle des entrées
Saisie des données
1.  Type de support
2.  Réception des CRF papiers
3.  Type de saisie
4.  Sauvegardes
Type de support
•  Cahier d’observation papier (CRF)
•  Saisie dans la base par un opérateur de saisie
•  Saisie faite à partir des CRF papiers
•  •Cahier d’observation électronique (eCRF)
•  Saisie directe par les investigateurs / TECs
•  Pas de support papier
Type de saisie
•  Saisie simple
•  Double saisie
•  Indépendante
•  Confrontation des bases 1 et 2 par le Data Manager
•  Correction des erreurs en se basant sur le CRF
•  Interactive
•  En cas de discordance, une alerte est présentée au deuxième opérateur
de saisie
Etapes du data management
Quelques conseils
•  Impliquer tous les intervenants dans la préparation
•  CP, Investigateur, ARC, TEC, Data Manager, Biostatisticien
•  •Ne pas « brûler » les étapes
•  Le temps « gagné » au début sera perdu à la fin
•  •Modifications du CRF en cours d’étude
•  Impact sur toutes les étapes du data management
•  Perte de temps
•  Risque (modifications sur une base en production)
Revenir au plus simple…
Quelques catégories de variables
•  Variables numériques
•  Entiers ou réels (variables biologiques)
•  Date/heures
•  Textes
•  Faible intérêt pour l’exploitation
Un mot sur le contrôle qualité
•  Possible contrôle au moment de la saisie sur le formulaire
•  Dans les essais cliniques, principalement réalisés sur les
variables du critère principal et secondaire…
Les données manquantes
•  L’absence de la donnée est TOUJOURS un problème
•  Oubli ?
•  Donnée indisponible ?
•  1er cas : donnée à récupérer
•  2ième cas : plusieurs possibilités…
•  Si donnée manquante les abréviations conventionnelles
•  NF si non fait
•  ND si non disponible
•  NA si non applicable
Un mot sur le tableur excel
•  Simple (en apparence)
•  Utile
•  Limité
•  Quelques conseils
Quelques principes
•  Utiliser le TABLEUR
•  Et un MASQUE
Le tableur
•  Case
•  1 donnée et UNE SEULE
•  1 donnée CODEE
•  1 donnée UNIVOQUE
•  Intitulé des colonnes
•  Simple
•  Court
•  Sans accent
•  Sans caractères spéciaux
•  1 seule ligne pour l’intitulé
Le tableur (2)
•  Case
•  1 donnée et UNE SEULE
•  1 donnée CODEE
•  1 donnée UNIVOQUE
•  Eviter les couleurs
•  Intitulé des colonnes
•  Simple
•  Court
•  Sans accent
•  Sans caractères spéciaux
•  1 seule ligne pour l’intitulé
Le masque
•  Le masque
•  Def : Système qui permet de forcer le format des données à entrer
•  Sous excel pour débutant recommandations
•  Intitulé de chaque colonne
•  Traduction en clair
•  Format des données de la colonne
En guise de conclusion
•  Vous ne faites pas du NGS sur un coin de table…
•  Ne faites pas de bases de données dans votre coin…
Téléchargement