RENCONTRES DES 18 et 19 MAI 2011 ANGERS Institut de Cancérologie de l'Ouest Paul Papin Data Management en épidémiologie Noémie LEVÊQUE-MORLAIS GRECAN - Centre François Baclesse – CAEN Lyan HOANG INSERM – U1018 – équipe 9 Institut Gustave Roussy - VILLEJUIF 18 mai 2011 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 2 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 3 1- Épidémiologie Définition L’épidémiologie est l'étude de la répartition et des déterminants des évènements de santé. Les 3 branches de l’épidémiologie DESCRIPTIVE : étudier la fréquence et la répartition d'une pathologie dans une population. ETIOLOGIQUE : rechercher les déterminants de cette pathologie. EVALUATIVE : mesurer l'impact d'une politique de santé publique. CONNAÎTRE Ép. descriptive COMPRENDRE Ép. étiologique Hypothèses Politique SANTE PUBLIQUE Propositions EVALUER Ép. évaluative Actions 4 1- Épidémiologie : Étiologie L’étiologie L’épidémiologie étiologique (ou analytique, ou explicative) permet rechercher une relation entre exposition(s) et pathologie(s). Les enquêtes Enquête exposés / non exposés (cohorte) : comparaison de la survenue d’une pathologie dans le temps, dans des groupes de sujets, tous « sains » à T0, exposés ou non exposés à des facteurs de risque. Enquête Cas-Témoins : comparaison de la fréquence et de l’intensité de l’exposition entre des sujets malades et des sujets « sains ». Objectif L’identification des facteurs de risque permet la mise en place de politiques de santé publique. 5 1- Épidémiologie : L’enquête de cohorte Essai randomisé Groupe traité Etude transversale Suivi Patients Témoin Suivi Comparaison des résultats Répartition au hasard Population T0 Exposition ? État de santé? Population T1 Exposition ? État de santé? Comparaison Etude cas-témoin Patients avec cancer Étude des antécédents Comparaison des antécédents Conclusions Étude des antécédents Témoins sans cancer rétrospective Cohorte Fumeurs Suivi Suivi Comparaison des issues Non fumeurs prospective 6 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 7 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 8 2.1- AGRICAN - Milieu agricole : Contexte La population agricole Effets des expositions professionnelles agricoles peu renseignés France 1 million actifs (5-7% des actifs) et 500000 exploitations en France Expositions spécifiques : chimiques (pesticides, engrais, désinfectants…), physiques (ultraviolets, accidents mécaniques…), biologiques (virus animaux, moisissures…). Les pesticides La France se situe au 4ème rang mondial avec une utilisation de près de 80.000 tonnes par an et au 1er rang européen. Quelques hypothèses liens pesticide et santé : risques de cancers (hématologiques), troubles de la reproduction (infertilité, avortements, malformations) maladies neurologiques (maladie de Parkinson, troubles neurocomportementaux,…) 9 2.1- AGRICAN - Milieu agricole : Études (1) Nom EPIBIO Sujet Marqueurs d'endommagement de l'ADN associés à l’utilisation de pesticides Qui Agriculteurs Quoi Enquête de cohorte épidémio et biologique Où Calvados Quand Débuté en 1997-2000 + suivi en 2007-2010 Comment Interrogation en face à face + prélèvement urine/sang Combien 800 inclus DM : - Outil de saisie (+double saisie) sur Access. 10 2.1- AGRICAN - Milieu agricole : Études (2) Nom EPI95 Sujet Facteurs de risque du cancer en milieu agricole Qui Agriculteurs actifs/retraités, salariés agricole actifs Quoi Enquête de cohorte (préliminaire à AGRICAN) Où Calvados Quand Débuté en 1995 + suivi en 2010 Comment Auto-questionnaire courrier + au Suivi enquête par téléphone pour les NRep Combien 6000 inclus DM : - Croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer - Formulaire de gestion des contacts (Suivi) sur Access - Nouveau modèle de vidéocodage à envisager 11 2.1- AGRICAN - Milieu agricole : Études (3) Nom AGRICAN Sujet Facteurs de risque du cancer en milieu agricole Qui Affiliés à la MSA (agriculteurs, salariés agricoles, tertiaire), actifs/retraités Quoi Enquête de cohorte Où 11 départements comprenant un registre du cancer (21,25,33,38,44,50,67,68,80,81,85) Quand Débuté en 2005 + 1er suivi prévu en 2012 Comment Auto-questionnaire courrier / 8 pages Combien 570000 interrogés, 180000 inclus DM : - contrôles de cohérences (pour validation manuelle) - gestion du "Vidéocodage" - croisement avec la MSA, le RNIPP, le CépiDC, puis les registres de Cancer - calculs de mortalité et d'incidence à partir de ces croisements 12 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 13 2.2- AGRICAN - Méthode : le questionnaire Habitudes de vie Etat de santé Activités agricoles Utilisation des pesticides 14 2.2- AGRICAN - Méthode : le questionnaire Réception Vidéocodage Dépouillement + Numérisation + Stockage Contrôles logiciel & manuels Envoi Base de données 1er Env + Relance + N° vert Cohérence Recodage (DM) Codage (Cim, Pro) Questionnaire Bulletin d’info Conception + Test Compte rendu aux participants 15 2.2- AGRICAN - Méthode : les données Sources Données Fréq. - Début Analyses Quest. Individu (Nais, Fam, Form) Histoire professionnelle Tous les 5 ans 2005 Description répondants Facteurs de risque (élevage/culture, type de tâches, traitements) Facteurs de confusion (tabac, alimentation, reproduction) MSA Adresses (Inclusion, Chgt) Individu (Nais, Com) Statut Vital, Actif/Retraité + médicaments ? Inclusion - 2005 Répondants / Non répondants Annuel - 2009 RNIPP Individu (Nais, Com) Statut Vital Annuel - 2009 Mortalité (SMR) Cas-témoins nichée CépiDC Causes de décès Annuel - 2012 Incidence Cancer (SIR) Registres Diagnostic de cancer 16 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 17 2.3- AGRICAN – Les résultats – La cohorte 30% de réponse (182 000 personnes) - 5% attendus pour une enquête postale La participation est plus importante chez les moins de 75 ans, les femmes et dans le Doubs. Homme 54% Femme 46% Âge 61 ans 65 ans Vie maritale 78% mariés 63% mariées, 28% veuves Activité 55% actifs, 60% Chef Exp 44% actives, 48% Chef Exp Tabagisme 42% jamais, 12% actuel 76% jamais, 5% actuel Santé perçue 64% bonne 55% bonne IMC 16,2% obèses 14,7% obèses Tabac + faible qu’en pop générale IMC + en surpoids que pop générale 18 2.3- AGRICAN – Les résultats – La mortalité Femme Toutes causes de DC -27%* -25%* Tous cancers -27%* -19%* Larynx, trachée, bronches, poumons -50%* -40%* -42% -40% -28%* +8% Mélanomes malins de la peau +1% +6% Estomac -2% +5% Cancers du « Sang » -11% +2% +123% -25%* Vessie Œsophage Sein * différence significative entre Agrican et la population générale Liés au tabac Tendance excès Homme 19 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 20 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 21 3.1- E3N – Constitution de la cohorte Nom E3N : Etude Epidémiologique auprès de femmes de l’Education Nationale Sujet Etude des facteurs de risque de cancer chez la femme Qui Femmes adhérentes à la MGEN, nées entre 1925 et 1950 Quoi Cohorte prospective Où France, partie française de l’EPIC Quand Débuté en 1989 Comment Auto-questionnaire courrier Combien 500000 femmes interrogées, 98 995 incluses 22 3.1- E3N – Constitution de la cohorte Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation, 23 3.1- E3N – Constitution de la cohorte L’étude pilote a commencé en 1989 : 2681 retours de questionnaires En 1990, la MGEN a envoyé à environ 500 000 personnes nées entre 1925-1950 103 089 retours, saisie de l’étiquette pour constituer une base d’adresse. Le fichier de 500 000 personnes est arrivé 18 mois après 24 3.1- E3N – Constitution de la cohorte Couple E3N-MGEN sur les critères : nom, prénom, nom de jeune fille, date de naissance, commune de naissance >> gros problème de discordances entre les saisies de ces 2 bases Les analyses ne peuvent commencer en 2000 qu’après les travaux de : vérification des accords vérification des dates de naissance concordantes entre les déclarations Ainsi la cohorte fige sa population de 98995 personnes à suivre 25 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 26 3.2- E3N – Données Auto-questionnaires tous les 2, 3 ans sur : État de santé, mode de vie … Banque du matériel biologique : 25000 prélèvements sanguin 50000 kits salives Fichiers MGEN : Tous les médicaments prescrits, remboursés Causes de DC Compte-rendu anatomopathologiques de cancer Mammographies du sein Suivi de tous les contacts avec : Les participantes (questionnaires, mailings, documents médicaux…) Les médecins (une base d’environ 35000) 27 3.2.1- E3N – Questionnaires Volume important (≈ 10 caisses / jr) Ouverture Tri des questionnaires Petits mots Étiquettes d’identification à enlever éventuellement Rayés Stylo optique pour pouvoir faire les relances au plus vite Les questionnaires prêts pour numériser 28 3.2.1- E3N – Questionnaires Données prospectives sur état de santé, anthropométrie, Facteurs reproductifs et hormonaux, mode de vie, alimentation, … Questionnaires spécifiques, comme les fractures, déclin cognitif, exposoleil … 29 3.2.2- E3N – Questionnaires - Facteurs hormonaux 30 3.2.2- E3N – Questionnaires Structure des données – Gel des tables à analyser Les répertoires Les dictionnaires des variables 31 3.2.3- E3N – Questionnaires - Le Qr alimentaire Partie quantitative : 8 repas avec la fréquence de consommation de chaque d’aliment, la quantité consommée à chaque repas… Partie qualitative : type d’aliment, mode de cuisson, régime … 32 3.2.3- E3N – Questionnaires - Le Qr alimentaire Corrections de la 1ère partie du questionnaire : Transformation des lettres des photos en quantités, en prenant en compte les photos multiples, transformation des fréquences mensuelles en fréquences hebdomadaires, correction des arrondis et des valeurs aberrantes pour les quantités, création d’un compteur permettant de calculer le nombre d’aliments consommés pour chaque personne… Corrections de la 2nde partie du questionnaire : Convertir la photo en quantité numérique, vérification des cohérences, internes aux blocs, convertir les tableaux qualitatifs en codes, uniformiser les déclarations, décisions pour les multicochages, décomposition des aliments Calcul des apports alimentaires Quantification des aliments consommés par repas et par jour, quantification des aliments consommés par jour (sans distinction des repas, classification des aliments consommés (groupes EPIC), calcul des apports en nutriments par jour et par femme 33 3.2.3- E3N – Questionnaires - Le Qr alimentaire 34 3.2.4- E3N – MGEN Fichiers trimestriels de la population de départ en 1990 : Coordonnées, statut vital Consommations médicales : médicaments, hospitalisations, actes … Médecins, établissements hospitaliers … Les macro SAS sont traitées à chaque réception de ces fichiers (importants de taille) Des macro SAS sont aussi créées pour extraire les données, par exemple : toutes les personnes qui ont consommé les médicaments traitant l’asthme (en croisant avec la base Thériaque) 35 3.2.5- E3N – Les cas de cancer Toutes les notions concernant le cancer sont ajoutées dans la base de K : Auto-déclaration ( partie cancer, motifs d’hospitalisations, autres maladies) Causes de décès Par la famille Dans les documents médicaux 36 3.2.5- E3N – Les cas de cancer Comptes rendus anatomopathologiques (CRA) à récupérer : Saisir les médecins fournis dans les questionnaires Créer un couple femme-médecin Mailing au médecin 37 3.2.5- E3N – Les cas de cancer Codage des CRA reçus 38 3.2.6- E3N – Suivi des contacts Tableau de bord pour connaitre chaque contact avec les participantes (ACCESS) 39 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 40 4.1- Vidéocodage LAD : Lecture Automatique de Documents A partir de la numérisation et de la reconnaissance de caractères, elle permet de récupérer les informations de documents papiers sur des fichiers informatiques en limitant l’intervention humaine. C’est une Alternative à la saisie pour les grandes quantités de Qr et de variables. Logiciel : B-Wize (=ICR) développé par EMC 41 4.1- Vidéocodage Stockage Numérisation Préparation des documents Lecture OCR + contrôles Validation manuelle Enregistrement Fichiers 42 4.1- Vidéocodage Avant : Le modèle Ancres Champs Contrôles Pendant : Le workflow (étapes de production) : Numérisation (10-20) Identification des pages et du code individu (30-40) Lecture des données par le logiciel (60) Si erreur envoi en validation manuelle (70) Transfert des données vers des fichiers (80) Après : Les bases et les images Traitements sur les données exportées Consultation des images Accès aux bases du logiciel 43 4.1- Vidéocodage – Le modèle Barre d’outils Répertoire des objets Support du modèle Vert = Champ Jaune = Ancre Explorateur Propriétés de l’objet 44 4.1- Vidéocodage – La validation manuelle Commentaire Zone de saisie du champ Lecture directe de l’image Lecture du champ sur l’image Lecture des données recueillies Vert = Champ validé Progression du lot Bleu ciel = champ en cours de contrôle (Bleu = champ en attente de contrôle) 45 4.1- Vidéocodage – Avantages et inconvénients Coût d’acquisition très élevé Lecture automatique des documents, commence à délivrer un retour sur investissement intéressant au dessus de 500 doc/jour avec comme condition une densité élevée de données pour chaque doc. Scan : rythme de 800 questionnaires de 2 feuilles par heure (soit 3 semaines pour 84 000 questionnaires de 4 pages) Correction à l’écran des informations mal reconnues par l’automate (55 qst de 4 pages / heure, soit 10 personnesmois) Documents consultables en ligne Consultation des questionnaires : Évite de trier et ranger les questionnaires Évite d’aller chercher les questionnaires papiers Libére la place de stockage des papiers 46 4.1- Vidéocodage – Les perspectives Avec l’évolution informatique : l’ancien ne peut plus être déployé sur de nouveaux environnements. Le changement de plateforme est en cours à E3N. Nous devons prendre 2 pro logiciels pour remplacer : InputAccel et Documentum. Avec la nouvelle plateforme : Transfert de tous les anciens questionnaires numérisation tous nos documents papiers : CRA de K de plus de 21 000 personnes (4 grands armoires), consentements … Nouveaux questionnaires de suivi (le premier sera fin de cette année) 47 SOMMAIRE 1- Épidémiologie 2- AGRICAN Milieu agricole : Contexte et études associées Méthode : le questionnaire et les données Résultats 3- E3N Constitution de la cohorte Données (sources, circuits, organisations, DM) 4- Data Management Vidéocodage Problématiques 48 4.2- Problématiques en Data Management Suivi dans le temps La mise à jour non stop des données Vérification des déclarations à travers les questionnaires Structure et organisation des données : Quelle donnée choisir parmi tant ? Quelle table de donnée utiliser dans une analyse ou une autre ? 49 4.2- Problématiques en Data Management Choix de logiciels adaptés Formulaires de Saisie sur Access (+ qq requêtes) (?) Vidéocodage sur Bwize (?) Requêtes / contrôles / gestion des bases / calculs sur SAS Sources externes Collecte Croisements des bases sans identifiant commun Validation des données Identification des erreurs de remplissage des répondants Recodages / contrôles de cohérence Sécurisation / pérennité / dynamisation des bases Suivi des individus Changements adresse, décès, perdus de vue Gestion de 180 000 individus Seulement 50% de questionnaires validés depuis 2008 : échn 10% pr analyse Temps de chargement Stockage sur une base MySQL 50