Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny Conseils pour la création d’une base de données élémentaire PLAN - Objet du présent document Préalables recommandés à la création d’un tableur Généralités sur les tableurs Que mettre dans les colonnes ? Qu’est-ce qu’une ligne ? Liste non exhaustive de choses à ne pas faire (si possible) Conseils en vrac FAQ Objet du présent document Etablir une liste de règles à suivre et des erreurs à éviter dans la création d’un tableur à visée d’analyse statistique. Aucun des points abordés ici ne vaut règle absolue (quoique…), mais si vous passez outre, que ce soit en connaissance de cause ! Cette liste est pour beaucoup une liste de bon sens… Préalables recommandés lors de la création d’un tableur simple à des fins d’exploitation statistique - Dictionnaire des variables Plan d’analyses statistiques La base créée prendra la forme d’un tableau à deux dimensions, où l’on trouvera en colonnes des variables de tous types (qualitatives, quantitatives, commentaires en texte libre…), et en ligne les observations, ou unités statistiques élémentaires. Généralités sur les tableurs Nommer son tableur Donnez-lui un nom pertinent, en rapport avec le sujet de l’étude, portant le nom ou les initiales de son créateur et la date de la dernière modification Exemple : « Suivi BPCO par JLB revu 12-02-2014 » 5/5 Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny Que mettre dans une colonne ? 1 colonne = 1 variable (exemple : âge, tabac, maladie principale…) Toutes les colonnes ont un nom dans leur première case, et ce nom est UNIQUE. Par exemple, si vous vous intéressez au poids du patient à deux temps différents, n’écrivez pas deux fois « poids ». Une solution pratique est de nommer la 1ère variable T1_poids, et la seconde T2_poids. 1ère colonne = identifiant unique (« clef ») Il est recommandé que la première colonne du tableau soit un identifiant unique, aussi appelé clef. Par exemple un chiffre à partir de 1 ; cela permet de désigner une ligne (= 1 observation) de manière unique quand vous devez en discuter avec votre collègue de travail, et facilite le contrôle-qualité de la base de données. Surtout, ne pas utiliser le numéro de la ligne automatiquement affiché à gauche sur Excel. En effet si, ensuite, vous insérez ou supprimez une ligne, ou si vous effectuez un tri, vous ne retrouverez plus vos petits ! 1 colonne => 1 écriture homogène Pour les variables qualitatives : n’écrivez pas « anapath » dans une case et « anatomo-pathologiste » dans une autre, ou, plus sournois, « médecin » et « medecin »… on peut éviter ces erreurs en faisant des copier-coller ou en anticipant avec un codage présenté dans le dictionnaire des variables : chirurgien = 1, anapath = 2, médecin généraliste = 3, on n’en sait rien = 9…. Pour les variables quantitatives : n’utilisez qu’une seule unité au sein d’une même colonne, même si ce n’est pas toujours « naturel ». Par exemple, pour une variable « âge » avec une base comprenant des nourrissons et des adultes, on préfèrera une échelle en années plutôt qu’en mois : 0.5 années = 6 mois. Donner un nom à ses variables (l’art du baptême) Pour nommer ses variables dans le tableau, essayer de respecter les points suivants : - - Nom aussi court que possible, pour ne pas trop alourdir le tableau Surtout, un nom UNIQUE (impératif absolu !) : 2 variables différentes = 2 noms différents Eviter la ponctuation, dont les espaces, à remplacer par des « _ », Eviter les cédilles et les accents. C’est une contrainte relative, surtout vrai si vous utilisez certains logiciels de statistiques qui ne supportent pas certains caractères propres à la langue française. Penser à donner une racine commune aux noms de différentes variables appartenant à un même groupe. Exemples : o Groupe « sémantique » : anapath_taille, anapath_gleason… o Groupes temporels : J1_eva, J1_RT_patho, J30_eva, J30_RT_patho… 5/5 Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny Qu’est-ce qu’une ligne ? La première ligne de votre tableau correspond donc au nom de la variable de la colonne Puis, à partir de la deuxième ligne : 1 ligne = 1 sujet, ou une observation, ou une unité statistique élémentaire. Un sujet peut être un individu, un genou, une boîte de Petri... mais il faut absolument qu’il soit de même nature à chaque ligne, avec une définition univoque et non ambiguë. Ce qu’il ne faut pas faire, c’est avoir une ligne qui porte sur un patient, une seconde sur sa cheville, une autre sur sa prothèse… Liste non exhaustive de choses à ne pas faire (si possible) - Ecrire dans le tableau des informations qui devraient figurer seulement dans le questionnaire des variables : unités des variables quantitatives, liste des modalités des variables qualitatives… - Donner les noms des patients, leurs coordonnées (cf. rubrique « Anonymat !» dans Conseils en vrac), - Donner le même nom à 2 variables distinctes, - Fusionner des cases : cela compliquera beaucoup les fonctions de Filtre et de Tri, et même l’analyse statistique, que ce soit directement sous Excel ou avec un autre logiciel davantage dédié à l’analyse statistique 5/5 Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny Conseils en vrac - Anonymat ! C’est du bon sens, et une nécessité à la fois éthique et légale, mais il est utile de le rappeler : ne pas donner les noms des patients, ni leurs adresses ou numéro de téléphone ! Les tableaux transmis doivent être a-no-ny-mi-sés. D’où la nécessité de l’identifiant UNIQUE par ligne, essentiel en cas de travail collaboratif – ou même simplement pour vous y retrouver s’il vous faut revenir au dossier patient. Par contre, pour des raisons pratiques, vous pouvez avoir un second tableau des coordonnées des patients, avec le numéro d’identifiant qui leur correspond. Conservez précieusement ce tableau, mais ne le transmettez pas. - Unités d’une variable quantitative (taille, Hb, années, nombre de consultations…) N’indiquez pas l’unité dans le tableau Excel, elle compliquerait l’analyse statistique, car il faudrait ensuite la supprimer à la main. Elle devra avoir été spécifiée dans votre dictionnaire des variables. - Commentaires ou texte libre pour une variable au format défini (quali/quanti/date…) Le problème se pose lorsque vous souhaitez écrire une information dans une colonne, mais que cette info ne correspond pas au format prédéfini. Par exemple, vous avez recherché l’âge du patient sans la trouver, vous voulez le noter et revenir dessus plus tard, et vous avez besoin d’un pense-bête pour ne pas l’oublier. Cette solution doit être temporaire : lorsque vous vous lancerez dans l’analyse, il faudra être repassé dessus et avoir tranché la question, sinon il n’y a rien de tel pour créer des valeurs aberrantes. Rappel : pour l’exploitation statistique correcte d’une variable, il faut que les données renseignées dans une colonne soient homogènes. 5/5 Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny FAQ 1. Pourquoi ne pas utiliser un fichier Excel à plusieurs feuilles, ou créer dès le début différentes bases de données pour différentes sous-population ? Ce n’est pas interdit et, en pratique, pour la gestion des grandes bases de données (par exemple la base de l’assurance-maladie), cela devient parfois nécessaire. Pour une raison quelconque, on peut avoir besoin d’une base où une ligne correspond à un patient unique, et une autre base où une ligne correspond à la délivrance d’un médicament ou la réalisation d’un acte médical. Mais si vous gérez une base de données simple, et que vous n’êtes pas très à l’aise avec Excel, utiliser plusieurs feuilles est une source d’erreur importante. Notamment si vous souhaitez faire une comparaison entre plusieurs groupes, et que vous vouliez faire une feuille par groupe (traitement A vs traitement B, malades vs non malades, etc.). En effet, vous risquez de vous emmêler les pinceaux lors de la fusion des différentes feuilles ; de plus, utiliser différentes feuilles va compliquer l’analyse par des logiciels de statistique comme « R », SAS ou STATA. Dans de tels cas, le plus simple est souvent de créer une colonne supplémentaire, par exemple « TRAITEMENT », et d’indiquer « A » ou « B » dans la colonne, selon le traitement qu’aura reçu le patient. Il vous sera ensuite très facile de séparer ces populations avec les fonctions de Tri ou de Filtre. 2. Qu’écrire dans mon tableau quand je n’ai pas l’information ? Le problème des données manquantes est un problème compliqué et que l’on rencontre très souvent ! Pour une étude de bonne qualité, il est recommandé de spécifier le codage des données manquantes dans le dictionnaire des variables, et ce pour chaque variable. C’est à discuter selon vos besoins, mais une bonne solution consiste parfois à ne rien mettre, même si cette solution à ses limites. Si vous souhaitez distinguer : - « information non cherchée» de « information cherchée mais non trouvée », vous pouvez utiliser un code « neutre », qui soit suffisamment différent des résultats des autres cases. Par exemple, si la réponse attendue était oui/non, et que vous ne pouvez pas trancher, écrivez « 9 », ou « 99 », « NR » (non renseigné), ou « NA » (non available). Il faut surtout éviter, pour une donnée quantitative, d’écrire un code qui serait ambigu. Par exemple « 999 » pour le poids manquant d’un malade… 3. J’utilise des couleurs pour distinguer les parties de mon tableau, est-ce grave (docteur) ? Les internes sont friands de tableaux colorés, qui leur servent à distinguer les résultats collectés lors de la 1ère visite de ceux de la 2ème, ou encore à différencier les informations relatives à la maladie de celles relatives au patient. Ce n’est pas un problème en soi, mais il faut éviter que l’information ne soit portée QUE par la couleur de la case. Exemple : j’effectue une série de mesures à J1, et la même série à J10. Si la douleur est mesurée à ces deux temps, je nommerai mes variables respectivement J1_douleur et J10_douleur. 5/5 Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny 4. J’ai décidé de coder « 1 » = vu par un chirurgien et « 2 » = vu par un spécialiste. Manque de pot, l’un des patients a été vu par les deux, je code « 1 et 2 » ? ou 3 ? La règle d’or, c’est un remplissage homogène dans une même colonne. Donc si vous mettez un code chiffré, et puis qu’ensuite vous écrivez des commentaires (« 1 et 2 » risque d’être interprété comme un commentaire), l’information n’est plus compréhensible. Différents possibilités s’offrent à vous : - - Soit les deux informations sont importantes, et dans ce cas vous créez un nouveau code qui contient cette information, par exemple « 3 » signifiera « 1 et 2 », Soit vous laissez une case vide, Soit vous créez 2 colonnes, une « a vu le généraliste » et l’autre « a vu le spécialiste », où vous écrivez OUI/NON. Cette solution nécessite par contre de renseigner ces colonnes pour les autres observations, ce qui peut être long si le tableau est grand, mais sera en pratique très rapide avec un logiciel adapté. Soit vous avez de bonnes raisons de trancher pour 1 ou 2 : alors tranchez ! 5/5