
Dernière mise à jour : 06/04/2014 [Texte] Auteur(s) : Matthieu Wargny
5/5
FAQ
1. Pourquoi ne pas utiliser un fichier Excel à plusieurs feuilles, ou créer dès le début
différentes bases de données pour différentes sous-population ?
Ce n’est pas interdit et, en pratique, pour la gestion des grandes bases de données (par exemple la
base de l’assurance-maladie), cela devient parfois nécessaire. Pour une raison quelconque, on peut
avoir besoin d’une base où une ligne correspond à un patient unique, et une autre base où une ligne
correspond à la délivrance d’un médicament ou la réalisation d’un acte médical.
Mais si vous gérez une base de données simple, et que vous n’êtes pas très à l’aise avec Excel, utiliser
plusieurs feuilles est une source d’erreur importante. Notamment si vous souhaitez faire une
comparaison entre plusieurs groupes, et que vous vouliez faire une feuille par groupe (traitement A
vs traitement B, malades vs non malades, etc.). En effet, vous risquez de vous emmêler les pinceaux
lors de la fusion des différentes feuilles ; de plus, utiliser différentes feuilles va compliquer l’analyse
par des logiciels de statistique comme « R », SAS ou STATA.
Dans de tels cas, le plus simple est souvent de créer une colonne supplémentaire, par exemple
« TRAITEMENT », et d’indiquer « A » ou « B » dans la colonne, selon le traitement qu’aura reçu le
patient. Il vous sera ensuite très facile de séparer ces populations avec les fonctions de Tri ou de
Filtre.
2. Qu’écrire dans mon tableau quand je n’ai pas l’information ?
Le problème des données manquantes est un problème compliqué et que l’on rencontre très
souvent ! Pour une étude de bonne qualité, il est recommandé de spécifier le codage des données
manquantes dans le dictionnaire des variables, et ce pour chaque variable.
C’est à discuter selon vos besoins, mais une bonne solution consiste parfois à ne rien mettre, même
si cette solution à ses limites. Si vous souhaitez distinguer :
- « information non cherchée»
- de « information cherchée mais non trouvée »,
vous pouvez utiliser un code « neutre », qui soit suffisamment différent des résultats des autres
cases. Par exemple, si la réponse attendue était oui/non, et que vous ne pouvez pas trancher,
écrivez « 9 », ou « 99 », « NR » (non renseigné), ou « NA » (non available). Il faut surtout éviter, pour
une donnée quantitative, d’écrire un code qui serait ambigu. Par exemple « 999 » pour le poids
manquant d’un malade…
3. J’utilise des couleurs pour distinguer les parties de mon tableau, est-ce grave (docteur) ?
Les internes sont friands de tableaux colorés, qui leur servent à distinguer les résultats collectés lors
de la 1ère visite de ceux de la 2ème, ou encore à différencier les informations relatives à la maladie de
celles relatives au patient. Ce n’est pas un problème en soi, mais il faut éviter que l’information ne
soit portée QUE par la couleur de la case.
Exemple : j’effectue une série de mesures à J1, et la même série à J10. Si la douleur est mesurée à ces
deux temps, je nommerai mes variables respectivement J1_douleur et J10_douleur.