Conseils pour la création d`une base de données élémentaire

publicité
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
Conseils pour la création d’une base de données élémentaire
PLAN
-
Objet du présent document
Préalables recommandés à la création d’un tableur
Généralités sur les tableurs
Que mettre dans les colonnes ?
Qu’est-ce qu’une ligne ?
Liste non exhaustive de choses à ne pas faire (si possible)
Conseils en vrac
FAQ
Objet du présent document
Etablir une liste de règles à suivre et des erreurs à éviter dans la création d’un tableur à visée
d’analyse statistique. Aucun des points abordés ici ne vaut règle absolue (quoique…), mais si vous
passez outre, que ce soit en connaissance de cause !
Cette liste est pour beaucoup une liste de bon sens…
Préalables recommandés lors de la création d’un tableur simple à des fins d’exploitation statistique
-
Dictionnaire des variables
Plan d’analyses statistiques
La base créée prendra la forme d’un tableau à deux dimensions, où l’on trouvera en colonnes des
variables de tous types (qualitatives, quantitatives, commentaires en texte libre…), et en ligne les
observations, ou unités statistiques élémentaires.
Généralités sur les tableurs
Nommer son tableur
Donnez-lui un nom pertinent, en rapport avec le sujet de l’étude, portant le nom ou les initiales de
son créateur et la date de la dernière modification
Exemple : « Suivi BPCO par JLB revu 12-02-2014 »
5/5
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
Que mettre dans une colonne ?
1 colonne = 1 variable (exemple : âge, tabac, maladie principale…)
Toutes les colonnes ont un nom dans leur première case, et ce nom est UNIQUE. Par exemple, si
vous vous intéressez au poids du patient à deux temps différents, n’écrivez pas deux fois « poids ».
Une solution pratique est de nommer la 1ère variable T1_poids, et la seconde T2_poids.
1ère colonne = identifiant unique (« clef »)
Il est recommandé que la première colonne du tableau soit un identifiant unique, aussi appelé clef.
Par exemple un chiffre à partir de 1 ; cela permet de désigner une ligne (= 1 observation) de manière
unique quand vous devez en discuter avec votre collègue de travail, et facilite le contrôle-qualité de
la base de données. Surtout, ne pas utiliser le numéro de la ligne automatiquement affiché à gauche
sur Excel. En effet si, ensuite, vous insérez ou supprimez une ligne, ou si vous effectuez un tri, vous
ne retrouverez plus vos petits !
1 colonne => 1 écriture homogène
Pour les variables qualitatives : n’écrivez pas « anapath » dans une case et « anatomo-pathologiste »
dans une autre, ou, plus sournois, « médecin » et « medecin »… on peut éviter ces erreurs en faisant
des copier-coller ou en anticipant avec un codage présenté dans le dictionnaire des variables :
chirurgien = 1, anapath = 2, médecin généraliste = 3, on n’en sait rien = 9….
Pour les variables quantitatives : n’utilisez qu’une seule unité au sein d’une même colonne, même si
ce n’est pas toujours « naturel ». Par exemple, pour une variable « âge » avec une base comprenant
des nourrissons et des adultes, on préfèrera une échelle en années plutôt qu’en mois : 0.5 années = 6
mois.
Donner un nom à ses variables (l’art du baptême)
Pour nommer ses variables dans le tableau, essayer de respecter les points suivants :
-
-
Nom aussi court que possible, pour ne pas trop alourdir le tableau
Surtout, un nom UNIQUE (impératif absolu !) : 2 variables différentes = 2 noms différents
Eviter la ponctuation, dont les espaces, à remplacer par des « _ »,
Eviter les cédilles et les accents. C’est une contrainte relative, surtout vrai si vous utilisez
certains logiciels de statistiques qui ne supportent pas certains caractères propres à la
langue française.
Penser à donner une racine commune aux noms de différentes variables appartenant à un
même groupe. Exemples :
o Groupe « sémantique » : anapath_taille, anapath_gleason…
o Groupes temporels : J1_eva, J1_RT_patho, J30_eva, J30_RT_patho…
5/5
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
Qu’est-ce qu’une ligne ?
La première ligne de votre tableau correspond donc au nom de la variable de la colonne
Puis, à partir de la deuxième ligne : 1 ligne = 1 sujet, ou une observation, ou une unité statistique
élémentaire. Un sujet peut être un individu, un genou, une boîte de Petri... mais il faut absolument
qu’il soit de même nature à chaque ligne, avec une définition univoque et non ambiguë. Ce qu’il ne
faut pas faire, c’est avoir une ligne qui porte sur un patient, une seconde sur sa cheville, une autre
sur sa prothèse…
Liste non exhaustive de choses à ne pas faire (si possible)
-
Ecrire dans le tableau des informations qui devraient figurer seulement dans le questionnaire
des variables : unités des variables quantitatives, liste des modalités des variables
qualitatives…
-
Donner les noms des patients, leurs coordonnées (cf. rubrique « Anonymat !» dans Conseils
en vrac),
-
Donner le même nom à 2 variables distinctes,
-
Fusionner des cases : cela compliquera beaucoup les fonctions de Filtre et de Tri, et même
l’analyse statistique, que ce soit directement sous Excel ou avec un autre logiciel davantage
dédié à l’analyse statistique
5/5
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
Conseils en vrac
-
Anonymat !
C’est du bon sens, et une nécessité à la fois éthique et légale, mais il est utile de le rappeler : ne pas
donner les noms des patients, ni leurs adresses ou numéro de téléphone ! Les tableaux transmis
doivent être a-no-ny-mi-sés. D’où la nécessité de l’identifiant UNIQUE par ligne, essentiel en cas de
travail collaboratif – ou même simplement pour vous y retrouver s’il vous faut revenir au dossier
patient.
Par contre, pour des raisons pratiques, vous pouvez avoir un second tableau des coordonnées des
patients, avec le numéro d’identifiant qui leur correspond. Conservez précieusement ce tableau,
mais ne le transmettez pas.
-
Unités d’une variable quantitative (taille, Hb, années, nombre de consultations…)
N’indiquez pas l’unité dans le tableau Excel, elle compliquerait l’analyse statistique, car il faudrait
ensuite la supprimer à la main. Elle devra avoir été spécifiée dans votre dictionnaire des variables.
-
Commentaires ou texte libre pour une variable au format défini (quali/quanti/date…)
Le problème se pose lorsque vous souhaitez écrire une information dans une colonne, mais que cette
info ne correspond pas au format prédéfini. Par exemple, vous avez recherché l’âge du patient sans
la trouver, vous voulez le noter et revenir dessus plus tard, et vous avez besoin d’un pense-bête pour
ne pas l’oublier. Cette solution doit être temporaire : lorsque vous vous lancerez dans l’analyse, il
faudra être repassé dessus et avoir tranché la question, sinon il n’y a rien de tel pour créer des
valeurs aberrantes. Rappel : pour l’exploitation statistique correcte d’une variable, il faut que les
données renseignées dans une colonne soient homogènes.
5/5
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
FAQ
1. Pourquoi ne pas utiliser un fichier Excel à plusieurs feuilles, ou créer dès le début
différentes bases de données pour différentes sous-population ?
Ce n’est pas interdit et, en pratique, pour la gestion des grandes bases de données (par exemple la
base de l’assurance-maladie), cela devient parfois nécessaire. Pour une raison quelconque, on peut
avoir besoin d’une base où une ligne correspond à un patient unique, et une autre base où une ligne
correspond à la délivrance d’un médicament ou la réalisation d’un acte médical.
Mais si vous gérez une base de données simple, et que vous n’êtes pas très à l’aise avec Excel, utiliser
plusieurs feuilles est une source d’erreur importante. Notamment si vous souhaitez faire une
comparaison entre plusieurs groupes, et que vous vouliez faire une feuille par groupe (traitement A
vs traitement B, malades vs non malades, etc.). En effet, vous risquez de vous emmêler les pinceaux
lors de la fusion des différentes feuilles ; de plus, utiliser différentes feuilles va compliquer l’analyse
par des logiciels de statistique comme « R », SAS ou STATA.
Dans de tels cas, le plus simple est souvent de créer une colonne supplémentaire, par exemple
« TRAITEMENT », et d’indiquer « A » ou « B » dans la colonne, selon le traitement qu’aura reçu le
patient. Il vous sera ensuite très facile de séparer ces populations avec les fonctions de Tri ou de
Filtre.
2. Qu’écrire dans mon tableau quand je n’ai pas l’information ?
Le problème des données manquantes est un problème compliqué et que l’on rencontre très
souvent ! Pour une étude de bonne qualité, il est recommandé de spécifier le codage des données
manquantes dans le dictionnaire des variables, et ce pour chaque variable.
C’est à discuter selon vos besoins, mais une bonne solution consiste parfois à ne rien mettre, même
si cette solution à ses limites. Si vous souhaitez distinguer :
-
« information non cherchée»
de « information cherchée mais non trouvée »,
vous pouvez utiliser un code « neutre », qui soit suffisamment différent des résultats des autres
cases. Par exemple, si la réponse attendue était oui/non, et que vous ne pouvez pas trancher,
écrivez « 9 », ou « 99 », « NR » (non renseigné), ou « NA » (non available). Il faut surtout éviter, pour
une donnée quantitative, d’écrire un code qui serait ambigu. Par exemple « 999 » pour le poids
manquant d’un malade…
3. J’utilise des couleurs pour distinguer les parties de mon tableau, est-ce grave (docteur) ?
Les internes sont friands de tableaux colorés, qui leur servent à distinguer les résultats collectés lors
de la 1ère visite de ceux de la 2ème, ou encore à différencier les informations relatives à la maladie de
celles relatives au patient. Ce n’est pas un problème en soi, mais il faut éviter que l’information ne
soit portée QUE par la couleur de la case.
Exemple : j’effectue une série de mesures à J1, et la même série à J10. Si la douleur est mesurée à ces
deux temps, je nommerai mes variables respectivement J1_douleur et J10_douleur.
5/5
Dernière mise à jour : 06/04/2014
[Texte]
Auteur(s) : Matthieu Wargny
4. J’ai décidé de coder « 1 » = vu par un chirurgien et « 2 » = vu par un spécialiste. Manque de
pot, l’un des patients a été vu par les deux, je code « 1 et 2 » ? ou 3 ?
La règle d’or, c’est un remplissage homogène dans une même colonne. Donc si vous mettez un code
chiffré, et puis qu’ensuite vous écrivez des commentaires (« 1 et 2 » risque d’être interprété comme
un commentaire), l’information n’est plus compréhensible. Différents possibilités s’offrent à vous :
-
-
Soit les deux informations sont importantes, et dans ce cas vous créez un nouveau code qui
contient cette information, par exemple « 3 » signifiera « 1 et 2 »,
Soit vous laissez une case vide,
Soit vous créez 2 colonnes, une « a vu le généraliste » et l’autre « a vu le spécialiste », où
vous écrivez OUI/NON. Cette solution nécessite par contre de renseigner ces colonnes pour
les autres observations, ce qui peut être long si le tableau est grand, mais sera en pratique
très rapide avec un logiciel adapté.
Soit vous avez de bonnes raisons de trancher pour 1 ou 2 : alors tranchez !
5/5
Téléchargement