Diapositive 1 - E

publicité
RENCONTRES DES 18 et 19 MAI 2011
ANGERS
Institut de Cancérologie de l'Ouest Paul Papin
Data Management en épidémiologie
Noémie LEVÊQUE-MORLAIS
GRECAN - Centre François Baclesse – CAEN
Lyan HOANG
INSERM – U1018 – équipe 9
Institut Gustave Roussy - VILLEJUIF
18 mai 2011
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
2
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
3
1- Épidémiologie
Définition
L’épidémiologie est l'étude de la répartition et des déterminants des
évènements de santé.
Les 3 branches de l’épidémiologie
DESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie
dans une population.
ETIOLOGIQUE : rechercher les déterminants de cette pathologie.
EVALUATIVE : mesurer l'impact d'une politique de santé publique.
CONNAÎTRE
Ép. descriptive
COMPRENDRE
Ép. étiologique
Hypothèses
Politique
SANTE PUBLIQUE
Propositions
EVALUER
Ép. évaluative
Actions
4
1- Épidémiologie : Étiologie
L’étiologie
L’épidémiologie étiologique (ou analytique, ou explicative) permet
rechercher une relation entre exposition(s) et pathologie(s).
Les enquêtes
Enquête exposés / non exposés (cohorte) : comparaison de la survenue
d’une pathologie dans le temps, dans des groupes de sujets, tous
« sains » à T0, exposés ou non exposés à des facteurs de risque.
Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité
de l’exposition entre des sujets malades et des sujets « sains ».
Objectif
L’identification des facteurs de risque permet la mise en place de
politiques de santé publique.
5
1- Épidémiologie : L’enquête de cohorte
Essai randomisé
Groupe
traité
Etude transversale
Suivi
Patients
Témoin
Suivi
Comparaison
des résultats
Répartition
au hasard
Population T0
Exposition ?
État de santé?
Population T1
Exposition ?
État de santé?
Comparaison
Etude cas-témoin
Patients
avec cancer
Étude des
antécédents
Comparaison des antécédents
Conclusions
Étude des
antécédents Témoins
sans cancer
rétrospective
Cohorte
Fumeurs
Suivi
Suivi
Comparaison
des issues
Non fumeurs
prospective
6
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
7
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
8
2.1- AGRICAN - Milieu agricole : Contexte
La population agricole
Effets des expositions professionnelles agricoles peu renseignés France
1 million actifs (5-7% des actifs) et 500000 exploitations en France
Expositions spécifiques :
chimiques (pesticides, engrais, désinfectants…),
physiques (ultraviolets, accidents mécaniques…),
biologiques (virus animaux, moisissures…).
Les pesticides
La France se situe au 4ème rang mondial avec une utilisation de près
de 80.000 tonnes par an et au 1er rang européen.
Quelques hypothèses liens pesticide et santé :
risques de cancers (hématologiques),
troubles de la reproduction (infertilité, avortements, malformations)
maladies neurologiques (maladie de Parkinson, troubles
neurocomportementaux,…)
9
2.1- AGRICAN - Milieu agricole : Études (1)
Nom
EPIBIO
Sujet
Marqueurs d'endommagement de l'ADN associés à l’utilisation de
pesticides
Qui
Agriculteurs
Quoi
Enquête de cohorte épidémio et biologique
Où
Calvados
Quand
Débuté en 1997-2000 + suivi en 2007-2010
Comment
Interrogation en face à face + prélèvement urine/sang
Combien
800 inclus
DM :
- Outil de saisie (+double saisie) sur Access.
10
2.1- AGRICAN - Milieu agricole : Études (2)
Nom
EPI95
Sujet
Facteurs de risque du cancer en milieu agricole
Qui
Agriculteurs actifs/retraités, salariés agricole actifs
Quoi
Enquête de cohorte (préliminaire à AGRICAN)
Où
Calvados
Quand
Débuté en 1995 + suivi en 2010
Comment
Auto-questionnaire courrier + au Suivi enquête par téléphone
pour les NRep
Combien
6000 inclus
DM :
- Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer
- Formulaire de gestion des contacts (Suivi) sur Access
- Nouveau modèle de vidéocodage à envisager
11
2.1- AGRICAN - Milieu agricole : Études (3)
Nom
AGRICAN
Sujet
Facteurs de risque du cancer en milieu agricole
Qui
Affiliés à la MSA (agriculteurs, salariés agricoles, tertiaire),
actifs/retraités
Quoi
Enquête de cohorte
Où
11 départements comprenant un registre du cancer
(21,25,33,38,44,50,67,68,80,81,85)
Quand
Débuté en 2005 + 1er suivi prévu en 2012
Comment
Auto-questionnaire courrier / 8 pages
Combien
570000 interrogés, 180000 inclus
DM :
- contrôles de cohérences (pour validation manuelle)
- gestion du "Vidéocodage"
- croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer
- calculs de mortalité et d'incidence à partir de ces croisements
12
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
13
2.2- AGRICAN - Méthode : le questionnaire
Habitudes de vie
Etat de santé
Activités agricoles
Utilisation des pesticides
14
2.2- AGRICAN - Méthode : le questionnaire
Réception
Vidéocodage
Dépouillement
+ Numérisation
+ Stockage
Contrôles logiciel
& manuels
Envoi
Base de données
1er Env + Relance
+ N° vert
Cohérence
Recodage (DM)
Codage (Cim, Pro)
Questionnaire
Bulletin d’info
Conception + Test
Compte rendu aux
participants
15
2.2- AGRICAN - Méthode : les données
Sources
Données
Fréq. - Début
Analyses
Quest.
Individu (Nais, Fam, Form)
Histoire professionnelle
Tous les 5 ans 2005
Description répondants
Facteurs de risque
(élevage/culture, type de tâches,
traitements)
Facteurs de confusion (tabac,
alimentation, reproduction)
MSA
Adresses (Inclusion, Chgt)
Individu (Nais, Com)
Statut Vital, Actif/Retraité
+ médicaments ?
Inclusion - 2005 Répondants / Non
répondants
Annuel - 2009
RNIPP
Individu (Nais, Com)
Statut Vital
Annuel - 2009
Mortalité (SMR)
Cas-témoins nichée
CépiDC
Causes de décès
Annuel - 2012
Incidence Cancer (SIR)
Registres Diagnostic de cancer
16
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
17
2.3- AGRICAN – Les résultats – La cohorte
30% de réponse (182 000 personnes) - 5% attendus pour une
enquête postale
La participation est plus importante chez les moins de 75 ans,
les femmes et dans le Doubs.
Homme 54%
Femme 46%
Âge
61 ans
65 ans
Vie maritale
78% mariés
63% mariées, 28% veuves
Activité
55% actifs, 60% Chef Exp
44% actives, 48% Chef Exp
Tabagisme
42% jamais, 12% actuel
76% jamais, 5% actuel
Santé perçue
64% bonne
55% bonne
IMC
16,2% obèses
14,7% obèses
Tabac + faible qu’en pop générale
IMC + en surpoids que pop générale
18
2.3- AGRICAN – Les résultats – La mortalité
Femme
Toutes causes de DC
-27%*
-25%*
Tous cancers
-27%*
-19%*
Larynx, trachée, bronches, poumons
-50%*
-40%*
-42%
-40%
-28%*
+8%
Mélanomes malins de la peau
+1%
+6%
Estomac
-2%
+5%
Cancers du « Sang »
-11%
+2%
+123%
-25%*
Vessie
Œsophage
Sein
* différence significative entre Agrican et la population générale
Liés au tabac Tendance excès
Homme
19
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
20
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
21
3.1- E3N – Constitution de la cohorte
Nom
E3N : Etude Epidémiologique auprès de femmes de l’Education
Nationale
Sujet
Etude des facteurs de risque de cancer chez la femme
Qui
Femmes adhérentes à la MGEN, nées entre 1925 et 1950
Quoi
Cohorte prospective
Où
France, partie française de l’EPIC
Quand
Débuté en 1989
Comment
Auto-questionnaire courrier
Combien
500000 femmes interrogées, 98 995 incluses
22
3.1- E3N – Constitution de la cohorte
Données prospectives sur état de santé, anthropométrie,
Facteurs reproductifs et hormonaux, mode de vie,
alimentation,
23
3.1- E3N – Constitution de la cohorte
L’étude pilote a commencé en 1989 : 2681 retours de
questionnaires
En 1990, la MGEN a envoyé à environ 500 000 personnes
nées entre 1925-1950
103 089 retours, saisie de l’étiquette pour constituer une base
d’adresse.
Le fichier de 500 000 personnes est arrivé 18 mois après
24
3.1- E3N – Constitution de la cohorte
Couple E3N-MGEN sur les critères : nom, prénom, nom de
jeune fille, date de naissance, commune de naissance
>> gros problème de discordances entre les saisies de ces 2
bases
Les analyses ne peuvent commencer en 2000 qu’après les
travaux de :
vérification des accords
vérification des dates de naissance concordantes entre les déclarations
Ainsi la cohorte fige sa population de 98995 personnes à
suivre
25
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
26
3.2- E3N – Données
Auto-questionnaires tous les 2, 3 ans sur :
État de santé, mode de vie …
Banque du matériel biologique :
25000 prélèvements sanguin
50000 kits salives
Fichiers MGEN :
Tous les médicaments prescrits, remboursés
Causes de DC
Compte-rendu anatomopathologiques de cancer
Mammographies du sein
Suivi de tous les contacts avec :
Les participantes (questionnaires, mailings, documents médicaux…)
Les médecins (une base d’environ 35000)
27
3.2.1- E3N – Questionnaires
Volume important (≈ 10 caisses / jr)
Ouverture
Tri des questionnaires
Petits mots
Étiquettes d’identification à
enlever éventuellement
Rayés
Stylo optique pour pouvoir faire les relances au plus vite
Les questionnaires prêts pour numériser
28
3.2.1- E3N – Questionnaires
Données prospectives sur état de santé, anthropométrie,
Facteurs reproductifs et hormonaux, mode de vie,
alimentation, …
Questionnaires spécifiques, comme les fractures, déclin
cognitif, exposoleil …
29
3.2.2- E3N – Questionnaires - Facteurs hormonaux
30
3.2.2- E3N – Questionnaires
Structure des données – Gel des tables à analyser
Les répertoires
Les dictionnaires des variables
31
3.2.3- E3N – Questionnaires - Le Qr alimentaire
Partie quantitative : 8 repas avec
la fréquence de consommation de chaque d’aliment,
la quantité consommée à chaque repas…
Partie qualitative :
type d’aliment,
mode de cuisson,
régime …
32
3.2.3- E3N – Questionnaires - Le Qr alimentaire
Corrections de la 1ère partie du questionnaire :
Transformation des lettres des photos en quantités, en prenant en compte les
photos multiples, transformation des fréquences mensuelles en fréquences
hebdomadaires, correction des arrondis et des valeurs aberrantes pour les
quantités, création d’un compteur permettant de calculer le nombre d’aliments
consommés pour chaque personne…
Corrections de la 2nde partie du questionnaire :
Convertir la photo en quantité numérique, vérification des cohérences, internes
aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les
déclarations, décisions pour les multicochages, décomposition des aliments
Calcul des apports alimentaires
Quantification des aliments consommés par repas et par jour, quantification des
aliments consommés par jour (sans distinction des repas, classification des
aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et
par femme
33
3.2.3- E3N – Questionnaires - Le Qr alimentaire
34
3.2.4- E3N – MGEN
Fichiers trimestriels de la population de départ en 1990 :
Coordonnées, statut vital
Consommations médicales : médicaments, hospitalisations, actes …
Médecins, établissements hospitaliers …
Les macro SAS sont traitées à chaque réception de ces
fichiers (importants de taille)
Des macro SAS sont aussi créées pour extraire les données,
par exemple : toutes les personnes qui ont consommé les
médicaments traitant l’asthme (en croisant avec la base
Thériaque)
35
3.2.5- E3N – Les cas de cancer
Toutes les notions concernant le cancer sont ajoutées dans la
base de K :
Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres
maladies)
Causes de décès
Par la famille
Dans les documents médicaux
36
3.2.5- E3N – Les cas de cancer
Comptes rendus anatomopathologiques (CRA) à récupérer :
Saisir les médecins fournis dans les questionnaires
Créer un couple femme-médecin
Mailing au médecin
37
3.2.5- E3N – Les cas de cancer
Codage des CRA reçus
38
3.2.6- E3N – Suivi des contacts
Tableau de bord pour connaitre chaque contact avec les
participantes (ACCESS)
39
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
40
4.1- Vidéocodage
LAD : Lecture Automatique de Documents
A partir de la numérisation et de la reconnaissance de
caractères, elle permet de récupérer les informations de
documents papiers sur des fichiers informatiques en limitant
l’intervention humaine.
C’est une Alternative à la saisie pour les grandes quantités de
Qr et de variables.
Logiciel : B-Wize (=ICR) développé par EMC
41
4.1- Vidéocodage
Stockage
Numérisation
Préparation
des documents
Lecture OCR +
contrôles
Validation
manuelle
Enregistrement
Fichiers
42
4.1- Vidéocodage
Avant : Le modèle
Ancres
Champs
Contrôles
Pendant : Le workflow (étapes de production) :
Numérisation (10-20)
Identification des pages et du code individu (30-40)
Lecture des données par le logiciel (60)
Si erreur envoi en validation manuelle (70)
Transfert des données vers des fichiers (80)
Après : Les bases et les images
Traitements sur les données exportées
Consultation des images
Accès aux bases du logiciel
43
4.1- Vidéocodage – Le modèle
Barre d’outils
Répertoire des objets
Support du modèle
Vert = Champ
Jaune = Ancre
Explorateur
Propriétés de l’objet
44
4.1- Vidéocodage – La validation manuelle
Commentaire
Zone de saisie du champ
Lecture directe de l’image
Lecture du champ sur l’image
Lecture des données recueillies
Vert = Champ validé
Progression
du lot
Bleu ciel = champ en cours de contrôle
(Bleu = champ en attente de contrôle)
45
4.1- Vidéocodage – Avantages et inconvénients
Coût d’acquisition très élevé
Lecture automatique des documents, commence à délivrer un
retour sur investissement intéressant au dessus de 500
doc/jour avec comme condition une densité élevée de
données pour chaque doc.
Scan : rythme de 800 questionnaires de 2 feuilles par heure
(soit 3 semaines pour 84 000 questionnaires de 4 pages)
Correction à l’écran des informations mal reconnues par
l’automate (55 qst de 4 pages / heure, soit 10 personnesmois)
Documents consultables en ligne
Consultation des questionnaires :
Évite de trier et ranger les questionnaires
Évite d’aller chercher les questionnaires papiers
Libére la place de stockage des papiers
46
4.1- Vidéocodage – Les perspectives
Avec l’évolution informatique : l’ancien ne peut plus être
déployé sur de nouveaux environnements.
Le changement de plateforme est en cours à E3N.
Nous devons prendre 2 pro logiciels pour remplacer :
InputAccel et Documentum.
Avec la nouvelle plateforme :
Transfert de tous les anciens questionnaires
numérisation tous nos documents papiers : CRA de K de plus de 21 000
personnes (4 grands armoires), consentements …
Nouveaux questionnaires de suivi (le premier sera fin de cette année)
47
SOMMAIRE
1- Épidémiologie
2- AGRICAN
Milieu agricole : Contexte et études associées
Méthode : le questionnaire et les données
Résultats
3- E3N
Constitution de la cohorte
Données (sources, circuits, organisations, DM)
4- Data Management
Vidéocodage
Problématiques
48
4.2- Problématiques en Data Management
Suivi dans le temps
La mise à jour non stop des données
Vérification des déclarations à travers les questionnaires
Structure et organisation des données :
Quelle donnée choisir parmi tant ?
Quelle table de donnée utiliser dans une analyse ou une autre ?
49
4.2- Problématiques en Data Management
Choix de logiciels adaptés
Formulaires de Saisie sur Access (+ qq requêtes) (?)
Vidéocodage sur Bwize (?)
Requêtes / contrôles / gestion des bases / calculs sur SAS
Sources externes
Collecte
Croisements des bases sans identifiant commun
Validation des données
Identification des erreurs de remplissage des répondants
Recodages / contrôles de cohérence
Sécurisation / pérennité / dynamisation des bases
Suivi des individus
Changements adresse, décès, perdus de vue
Gestion de 180 000 individus
Seulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyse
Temps de chargement
Stockage sur une base MySQL
50
Téléchargement