Le rôle d`un logiciel de base de données pour les projets de recherche

publicité
Le rôle d'un logiciel de base de
données pour les projets de recherche
Novembre 2000
Mise à jour d'Octobre 2010
Traduit en français par Hamado TAPSOBA
The University of Reading
Statistical Services Centre
Biometrics Advisory and
Support Service to DFID
Table des matières
1. Introduction
3
2. Gestion des données dans Excel
4
2.1 Données d’enquête dans Excel
4
2.2 Validation et formulaires de saisie de données
5
2.3 Lier des données de feuilles différentes
7
2.4 Données au niveau Activité
7
2.5 Les tables croisés dynamiques
8
2.6 Revue de Excel
9
3. Composantes d'un logiciel de base de données
10
3.1 Conception de la base de données
10
3.2 Saisie dans les tables
15
3.3 Vérification et validation
18
3.4 Utilisation des données
20
3.5 Les objets dans Access
22
3.6 Exportation à partir d'Access
22
3.7 Revue de Access
23
4. Le flux de données
24
5. Savoir plus sur un logiciel de base de données
25
5.1 Faire appel à un consultant externe
25
5.2 Travailler en partenariat avec un consultant externe
26
5.3 Construire la base de données en interne
27
5.4 Recommandations
27
Remerciements
© 2010 Statistical Services Centre, The University of Reading, UK
27
1. Introduction
Dans notre guide intitulé "Guide sur la gestion de données pour les projets de
développement", nous avons souligné l'importance d'avoir une bonne stratégie de
gestion des données des projets de recherche. Nous avons dit que là où il ya des
tableurs sont utilisés, ils doivent être utilisés avec la même discipline qui est imposée
automatiquement lorsqu’un logiciel de base de données est utilisé.
Le guide intitulé «Utilisation disciplinée des tableurs pour la saisie des données»,
explique ce qu'on entend par utilisation d'un tableur avec «discipline» et le guide
intitulé "Excel pour les statistiques" est conçu pour aider les chercheurs à se prononcer
sur le rôle d'un tableur pour leurs analyses.
Ce guide est destiné à aider les chercheurs et les gestionnaires de la recherche à
décider s’ils ont besoin de faire usage d'un logiciel de base de données pour gérer leurs
données. Nous utilisons Microsoft Access à titre d'exemple, mais les concepts sont
d'ordre général et s'appliquent également à tout logiciel de base de données
relationnelle.
Il existe de nombreux manuels sur Access, mais ils se concentrent principalement sur
COMMENT utiliser le logiciel. Ce guide se concentre sur SI le logiciel est nécessaire
et si oui, quelles sont les compétences que les différents membres de l'équipe du projet
ont besoin.
Nous supposons une certaine familiarité avec le tableur et commençons, à la section 2,
avec un exemple de données d’enquête qui ont été saisies dans Excel. Nous passons en
revue brièvement les concepts, à partir du guide de saisie de données, sur l'utilisation
de Excel avec discipline pour améliorer le processus de saisie des données. Cette
section vise en partie à introduire les concepts d'un système de base de données par
rapport à une feuille de calcul. C'est aussi parce que la plupart des projets auront une
certaine utilisation de feuilles de calcul. La principale question est habituellement
quelque chose comme «Étant donné que nous sommes raisonnablement confiants avec
Excel, pourquoi avons-nous aussi besoin d'apprendre un logiciel de base de données
(Access)?"
Dans la section 3, nous passons en revue les composantes d'un ensemble de bases de
données et voyons comment les données que nous avons utilisées à la section 2
pourraient être saisies et gérées dans Access. Nous montrons la conception de la base
de données et examinons des exemples de formulaires et rapports pour la saisie et
l'extraction des données. Dans la section 4, nous considérons le «flux» de données
pendant un projet de recherche allant de la saisie à l'étape d’archivage des données à la
fin du projet. Nous considérons le rôle d'un logiciel de base de données dans tout ce
© SSC 2000 & 2010 – Role of a Database Package for Research Projects
3
processus. Nous terminons la section 5 par un bref examen des compétences
nécessaires pour le personnel du projet pour pouvoir utiliser un logiciel de base de
données modernes d'une manière efficace.
2. Gestion des données dans Excel
Dans cette section, nous passons en revue certains aspects de la gestion des données
dans Excel. Beaucoup de ces sujets sont traités plus en détail dans notre guide sur
l'utilisation d'Excel avec discipline.
2.1 Données d’enquête dans Excel
Les données de la Figure 1 sont d'une étude de journal d'activités effectuée au Malawi.
Les individus au sein des ménages tiennent un registre des activités menées à quatre
moments différents de la journée. Les ménages sont regroupés en clusters ou
mbumbas. Un cluster est un ensemble de ménages pour une mère, ses filles adultes,
leurs maris et enfants. Il ya donc trois niveaux de données, à savoir le Mbumba, le
ménages et la personne. Dans un classeur Excel, il est pratique pour stocker chaque
niveau de données dans une feuille séparée. Un nom approprié est donné à chaque
feuille. Ceci est illustré dans la Figure 1.
Figure 1 - Extrait de Excel montrant plusieurs feuilles de calcul dans un seul fichier
Dans cette enquête, le niveau Mbumba comprend le nom du Mbumba, son
emplacement, etc. Au niveau ménage, le nom de famille est stocké. Le niveau
personne comprend le nom, l'âge et le sexe de l'individu. L'identificateur unique de la
personne est une combinaison du numéro du Mbumba, du ménage au sein du
Mbumba et de la personne au sein de Mbumba. Ainsi la personne 2518 est la 18e
personne du Mbumba n° 2 et est dans le ménage n° 5 du Mbumba n° 2. Dans la Figure
4
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
1 on peut voir les détails de la feuille du niveau personne. Nous voyons que les
numéros du Mbumba et du ménage sont également stockés à ce niveau et ils agissent
comme une référence dans les feuilles des niveaux ménage et Mbumba.
La plupart des données qui a été enregistrée étaient des activités. Elles ont été
enregistrées à 4 fois dans la journée. Elles ont été stockées sur une quatrième feuille
comme le montre la Figure 2, quoiqu’une une meilleure façon est présentée plus loin.
Cela a introduit un 4ème niveau de données, à savoir un niveau heure de la journée.
Figure 2 - Extrait de la feuille de calcul des activités dans le fichier Excel
Des codes ont été affectés aux activités. Une table de codage est stockée dans une
cinquième feuille dans le même fichier. Un maximum de 10 activités à tout moment de
la journée est pris en charge.
2.2 Validation et formulaires de saisie de données
Comme mentionné dans notre guide sur Excel, il est possible de définir des contrôles
de validation sur les cellules dans une feuille de calcul Excel. Comme il ya 47 activités
numérotées de 1 à 47, nous pouvons définir des contrôles de validation sur les
colonnes D à M comme le montre la Figure 3.
Dans les versions antérieures de Excel, une autre fonctionnalité utile était la possibilité
d'utiliser un formulaire pour la saisie des données. Choisir Formulaire dans le menu
Données pour produire le formulaire présenté dans la Figure 4.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
5
Figure 3 – Règles de validation dans Excel
Figure 4 – formulaire de saisie de données dans Excel.
Lorsque les données sont saisies via un formulaire elles sont vérifiées selon les règles
de validation seulement à la fin de chaque enregistrement et non après la saisie de
chaque valeur.
6
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
2.3 Lier des données de feuilles différentes
Nous avons dit que chaque personne se voit attribuer un identifiant unique. Cet
identifiant est utilisé dans la feuille Activités et agit comme un lien vers les données
du niveau Personne. En utilisant ce lien, nous sommes en mesure d'afficher les
données du niveau Personne à côté des données dans la feuille Activités. Par
exemple, la Figure 5 montre la feuille Activités avec des colonnes supplémentaires
pour l'Age et le Sexe. Nous avons utilisé la fonction RECHERCHEV pour afficher
les données stockées dans la feuille du niveau personne. Le point clé ici est que ces
données ne sont stockées qu’une fois - dans la feuille du niveau personne - mais en
utilisant RECHERCHEV nous sommes capables de les afficher dans d'autres feuilles.
Stocker une valeur de données une seule fois permet de minimiser les erreurs. Ceci a
été obtenu en divisant les données en niveaux et le stockage de chaque élément de
données au niveau approprié.
Figure 5 - Utilisation de RECHERCHEV pour combiner des données de feuilles séparées
2.4 Données au niveau Activité
Dans cette enquête, les répondants ont été invités à dresser la liste des activités qu'ils
ont menées à des moments précis de la journée comme le montre la Figure 5. Ceci est
un exemple d'une question à réponses multiples qui est commune dans les enquêtes.
Un répondant pourrait liste une ou plusieurs activités et le nombre d'activités est
différent pour chaque personne. Une façon de saisir et de stocker les données
d'activités est présentée dans les figures 2 et 5, mais elle n'est pas entièrement
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
7
satisfaisante, car elle se traduit par un bloc non rectangulaire de données. Cela se voit
dans la Figure 5 - peu de personnes ont jusqu'à 10 activités et par conséquent il ya
beaucoup de valeurs manquantes.
Une autre manière d'entrer ces données consiste à envisager un niveau Activité plutôt
qu'un niveau heure de la journée. L'équivalent de la Figure 5 est illustré à la Figure 6,
où chaque ligne de données se réfère maintenant à une activité plutôt qu’à une heure
de la journée. Cette disposition utilise plusieurs lignes de données, mais a l'avantage
d'une structure rectangulaire simple sans limite arbitraire sur le nombre d'activités.
Nous verrons, à section 3, que cette structure est le choix naturel à utiliser si les
données doivent être stockées dans un logiciel de base de données.
Figure 6 - Une seule activité par ligne
2.5 Les tables croisés dynamiques
Une fois que les données sont saisies elles doivent être analysées. Les analyses simples
consistent généralement en des tables et graphiques: les deux sont des caractéristiques
standard des tableurs. Dans la Figure 7, nous illustrons avec une table récapitulative
qui utilise une puissante fonctionnalité de Excel qu’est le Table croisé dynamique. Il
s'agit en fait des tables croisés avec l'avantage d'être interactive - vous pouvez
facilement échanger des lignes et des colonnes par exemple. La Figure 7 montre une
table croisée dynamique créé à l'aide des données d'activités, où un sous-ensemble des
activités a été choisi et est présenté comme têtes de ligne. Les individus ont été
regroupés en garçons, filles, hommes et femmes en fonction de leur âge et sexe, et ces
8
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
regroupements apparaissent comme des têtes de colonne dans la table. Les cellules de
la table indiquent le nombre d'enregistrements dans chaque catégorie. Ces tables
peuvent donner des pourcentages et d'autres valeurs de synthèse. Si les données
originales sont modifiées, cette table croisée dynamique peut être actualisé pour
refléter ces changements.
Figure 7 - Table croisé dynamique dans Excel
2.6 Revue de Excel
Nous pouvons maintenant passer en revue quelques-uns des points forts et les
faiblesses de Excel pour la saisie et la gestion des données scientifiques.
Lorsqu'il est utilisé avec la discipline il est approprié pour les données qui ont une
structure simple. Nous définissons une «structure simple» comme n’ayant pas
beaucoup de niveaux. Dans le guide pour la saisie des données dans Excel, nous avons
examiné des données avec un ou deux niveaux et Excel semble suffisant. Ici nous
avons eu 4 niveaux et ce niveau de complexité a déjà rendu Excel plus difficile à
utiliser.
Notez également que la question à réponses multiples dont nous avons discutée plus
tôt sur les activités menées à une heure donnée de la journée, a été facilement
manipulée par la saisie des données d'activités dans une feuille séparée. Lorsque les
enquêtes ont plus d'une question à réponses multiples la saisie des données nécessite
encore plus de tables.
Un deuxième problème similaire avec Excel a été montré dans la Figure 4 où nous
avons utilisé un simple formulaire de saisie de données. Lorsque nous avons beaucoup
de données, il est judicieux de rendre le processus de saisie aussi simples que possible,
c'est à dire faire le formulaire à l'écran qui ressemble à la fiche du questionnaire, et
cela ne peut pas se faire efficacement dans Excel seul. Si Access est disponible sur
votre ordinateur, il est possible d'utiliser les formulaires de Access dans Excel. Cela se
fait via le Microsoft AccessLinks Add-In pour Excel. Lorsque vous utilisez cette
fonction, Excel crée une base de données Access avec votre feuille de calcul actuelle
comme une table liée - les modifications apportées aux données dans Access seront
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
9
répercutées dans le fichier Excel. Avec cette fonctionnalité, vous avez plus de
flexibilité sur la conception du formulaire et pouvez exploiter toutes les fonctionnalités
de conception de formulaire de Access. Il convient de noter, toutefois, que les règles
de validation mis en place dans Excel ne sont pas transposées dans Access - vous aurez
besoin de définir des contrôles sur le formulaire de Access lui-même.
Une troisième limite possible, lorsque nous avons des structures complexes de
données, c'est que nous avons souvent de nombreuses façons différentes de vouloir
résumer les données. Dans Excel, il est généralement approprié de considérer dans
chaque cas comme l'équivalent d'une simple «rapport» et chacun ira sur une nouvelle
feuille. Une fois que nous avons beaucoup des feuilles (de rapport), nous devons être
sûrs que nous documentons bien notre classeur, afin que nous puissions examiner ce
que nous avons fait à une prochaine occasion.
Excel et les autres tableurs ont des atouts majeurs. Il s'agit notamment du fait que ce
que vous faites est toujours visible. Ils sont aussi puissants et très flexible. A l’opposée
de cela, il y a le fait qu'il est difficile de travailler avec la «discipline» si les ensembles
de données sont importants et/ou complexes dans leur structure. Alors, une approche
structurée est nécessaire pour la saisie et la gestion pour exploiter pleinement les
données. Un logiciel de base de données fournit cette structure.
3. Composantes d'un logiciel de base de données
Dans cette section, nous passons en revue brièvement les composantes d'un logiciel de
base de données. Nous nous appuyons sur les idées de la section 2, mais utilisons un
jargon standard de base de données. Cela afin que les lecteurs soient en mesure de
comprendre les consultants et lire la littérature qui loue les vertus des bases de
données. Nous examinons la conception de la base de données, la saisie des données,
et l’utilisation des données. A titre d'exemple, nous utilisons les données de l'étude
d’activités que nous avons présentée dans la section 2.
3.1 Conception de la base de données
Dans un logiciel de base de données les données sont stockées dans des «tables».
L'exemple de la section 2 avait quatre tables, pour les niveaux Mbumba, ménage,
personne et activité. Dans un logiciel de base de données les tables doivent être créées
avant que les données ne puissent être saisies. Au minimum, vous devez spécifier le
nombre de champs ou de colonnes de données requis, donner un nom à chaque champ
et de définir le type de données, par exemple texte ou numérique. Cela va en grande
partie vers l’application de la «discipline» que nous avons encouragée dans l'utilisation
10
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
de Excel dans notre guide sur Excel et la section 2 du présent guide. La Figure 8
montre l'écran de création de table. C'est là que les noms de champs et les types de
données sont définis.
Figure 8 - Création de table dans Access
Figure 9 – Vue "Feuille de données" des données du niveau Personne
L'écran de création de table dans la Figure 8 montre la conception du table au niveau
Personne. Nous devons spécifier les noms des champs et de définir leurs types de
données. Une fois que la table est créée, nous pouvons saisir les données via la feuille
de données ou la vue feuille de calcul. Ceci est illustré à la Figure 9. La feuille de
données ressemble à la feuille de calcul Excel. La feuille de données est adaptée aux
données que vous voulez saisir, chaque colonne se réfère à un champ dans la table et
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
11
n'accepte que les données du type spécifié lors de la conception de la table. Il n'y a pas
de limite au nombre de lignes que vous pouvez saisir autre que la limite physique de la
taille de votre disque. Une différence vous pouvez remarquer entre la feuille de
données dans Access et la feuille de calcul dans Excel est qu'il n'y a pas de
numérotation automatique des lignes dans Access. Toutefois, les informations en bas
de la fenêtre vous indique à quelle entrée ou ligne vous êtes et combien d’entrées il ya
au total.
Comme avec l'utilisation d'un tableur, il est important que vous utilisiez un logiciel de
base de données "avec discipline". La discipline minimale - définir le nombre de
champs et leur type de données - est obligatoire, mais vous devriez normalement faire
plus que le minimum. A titre d'exemple, nous expliquons pourquoi il est important que
toutes les tables aient ce qu'on appelle une clé primaire.
Toutes les données, qu'elles soient stockées dans une base de données, un tableur, ou
ailleurs, doivent avoir un identifiant unique pour chaque entrée. Ce peut être un champ
unique ou une combinaison de champs. Dans Excel et autres tableurs il n'existe aucun
moyen pour garantir l'unicité de cet identifiant et des doublons peuvent donc se
produire. Dans Access et d’autres logiciels de base de données, cependant, vous
pouvez et devez définir une clé primaire pour chaque table. Il s'agit soit d'un seul
champ ou combinaison de champs, qui agit comme un identificateur unique. La clé
primaire est toujours unique - Access ne permet pas de doublons dans la clé primaire.
Au niveau Personne l'identifiant unique est l'ID. Se référant à nouveau à la Figure 8,
nous voyons que ce champ a un symbole de clé à son côté indiquant que c'est le champ
de clé primaire de cette table. Dans de nombreux cas, le choix du champ de clé
primaire est évident.
Considérons maintenant une situation où le champ de clé primaire n'est pas si évident.
Les données au niveau Activité incluent PersonID, Date, TOD, Activity. Un extrait de
ces données est présenté dans la Figure 10.
Il est clair qu'aucun de ces champs n’est unique en soi. Ainsi, nous devons examiner
les combinaisons de champs et quand nous faisons cela, nous constatons que la seule
combinaison qui doit être unique est la combinaison de ces quatre champs. Il est
possible de définir cette combinaison comme notre clé primaire, cependant, les clés
primaires multi-champ, comprenant plus de 2 champs, deviennent difficiles à
manipuler et peuvent facilement conduire à des erreurs lors de l'établissement des
relations.
12
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
Figure 10 – Vue “Feuille de données" des données au niveau Activité
Une alternative est d'utiliser un champ NuméroAuto comme clé primaire. Cela
assignera un numéro unique à chaque entrée. Cependant, nous voulons toujours faire
en sorte que la combinaison des quatre champs d'origine soit unique. Nous pouvons
faire cela en créant ce que Access appelle un «index».
Un index peut être créé pour tout champ et toute combinaison de champs et accélère le
processus de tri et de sélection. Une fois qu’un index a été créé, il peut être rendu
unique, en d'autres termes vous ne seriez pas en mesure de saisir de doublons dans ce
champ ou combinaison de champs.
La Figure 11 montre l'écran de création de table pour les données du niveau Activité et
comprend le champ de numérotation automatique que nous avons ajouté comme la clé
primaire. Nous pouvons également voir la fenêtre Index, qui montre qu'il existe un
index appelé "identifiant" qui est une combinaison des quatre champs d'origine. La
propriété Unique a été fixée à "Oui" pour cet index.
Un important supplémentaire qui vient avec les logiciels de base de données
relationnelles tel que Access, est la capacité à créer des relations ou des liens entre les
tables de données. Ceci est implicite dans notre discussion précédente sur Excel
lorsque nous avons parlé de liaison de données à partir de feuilles différentes en
utilisant RECHERCHEV. Ces liens peuvent être intégrés à la conception dans Access.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
13
Figure 11 - Création de table avec la fenêtre Index
La Figure 12 montre la même structure de données que nous avons développée dans
Excel, mais dans Access. Les 4 niveaux sont traduits en 4 tables avec des relations
entre eux. Les relations sont tous du type " un-à-plusieurs" en ce sens qu’une entrée
dans un table est liée à potentiellement plusieurs entrées dans un autre table. Par
exemple, chaque ménage a plusieurs personnes.
Figure 12: Structure de base de données dans Access
Access inclut un ensemble de règles connu sous le nom de l'Intégrité Référentielle.
Lorsqu’elle est appliquée elle permet de valider les relations en ne permettant pas de
saisir un entrée d'une table sur le côté «plusieurs» d'une relation où il n'ya pas d'entrée
correspondant dans la table sur le côté «un». Par exemple, avec l'intégrité référentielle
vous ne seriez pas en mesure de saisir les détails d'un individu avant qu'il y ait un
ménage pour cette personne.
Une fois que vous vous rendez compte de la valeur de plusieurs tables, vous trouverez
que vous pouvez en utiliser plus. Considérons par exemple les «activités» dans notre
14
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
exemple de base de données. Les activités sont codées de 1 à 47 et le code est stocké
dans la base de données. Il serait relativement facile d'ajouter une table à 2 colonnes
contenant ces codes et leurs descriptions associées. La Figure 13 montre quelques-unes
des données de la Table «Activités» et la Figure 14 montre comment cette table et les
tables correspondantes pour le «heure de la journée» et «lien familial» peuvent être
ajoutées à la structure de la base de données.
Figure 13 - Extrait de la table des activités
Figure 14 - Structure complète de la base de données
Contrairement à une feuille de calcul, où sept tables avec des données seraient source
de confusion, il s'agit d'une structure assez simple pour une base de données. Une base
de données a généralement entre 5 et 50 tables.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
15
3.2 Saisie dans les tables
L’aspect suivant que nous devons prendre en compte est la façon de saisir les données
dans les tables. Nous avons déjà mentionné que les données peuvent être saisies
directement dans la table par la feuille de données. Nous avons vu un exemple de
feuille de données à la Figure 9. Quand il ya juste une petite quantité de données, ce
sera facile et c'est tout ce qui est nécessaire. La Figure 15 montre les cinq entrées de la
table Mbumba sous forme d’une « feuille de calcul ».
Figure 15 - Données du niveau Mbumba
Figure 16 - Simple formulaire de saisie des données du niveau Personne
Pour des volumes plus grands de données, il est plus fréquent de mettre en place des
formulaires spécifiques de saisie de données. Un peu plus pratique est nécessaire que
dans Excel, mais les formulaires simples sont très faciles à concevoir. Le formulaire de
la Figure 16 est pour la saisie des données sur les individus. Ce formulaire a été généré
automatiquement à partir de la table correspondante à l'aide l'un des Assistants
AutoForm dans Access, et la structure est semblable à la Figure 4 qui a été donnée
dans Excel.
16
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
La Figure 17 montre le même formulaire, après quelques simples modifications de
conception. Ainsi, il est facile de commencer avec un formulaire généré
automatiquement et modifier la disposition pour correspondre à votre questionnaire.
La facilité de produire des formulaires de ce type dans Access est l'une des raisons de
sa popularité.
Figure 17 - Variation sur le formulaire de saisie de données du niveau Personne
Toutefois, un formulaire d'enquête comprend souvent des données de plus d'une table.
Dans notre cas, la fiche personne comprenais de l’espace pour enregistrer les données
du niveau Activité. Idéalement, nous aurions donc voulu saisir des données à partir
d'un questionnaire unique en 2 ou même 3 tables en même temps. Cette nouvelle étape
nécessite une certaine expertise, mais est aussi relativement facile dans un logiciel de
base de données tel que Access. Ceci est important car il permet une saisie des
données beaucoup plus facile et donc plus fiables.
La Figure 18 montre un formulaire qui a été utilisé dans cette étude. La partie
supérieure du formulaire est pour la saisie des données sur les individus. Ceci est
similaire au formulaire dans les figures 16 et 17. La moitié inférieure du formulaire est
pour la saisie des données d'activité. C'est en fait un sous-formulaire et les données
saisies sont stockées dans la table d'activité.
En raison des liens entre le formulaire principal et le sous-formulaire, vous voyez
seulement les données d'activité de l'individu affiché dans le formulaire principal.
Généralement, il ya une relation un-à-plusieurs entre les données dans le formulaire
principal et les données dans le sous-formulaire. Dans la Figure 18, nous pouvons voir
que cette personne en particulier a plusieurs activités pour le matin du 1er Juin 1998.
Ainsi, la question à réponses multiples sur les différentes activités dans chaque période
de temps se traduit par une entrée distincte pour chaque réponse.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
17
Figure 18 - formulaire du niveau Personnes avec sous-formulaire du niveau Activité
Dans notre guide Excel nous avons souligné l'importance de la distinction entre la
personne qui a conçu le «système» pour la saisie des données et le personnel qui fait
effectivement la saisie. C'est désormais une distinction beaucoup plus claire avec un
logiciel de base de données. S'il s’agit d’une enquête ou d’une base de données
complexe, la tâche de conception d’un système efficace de saisie des données demande
de hautes qualifications.
3.3 Vérification et validation
Dans la discussion qui suit, nous considérons la validation comme vérification des
données au moment de la saisie, et interprétons la vérification comme la vérification
des données une fois saisies. Le processus d’audit que nous décrivons dans notre
guide Excel peut être considéré comme la vérification dans cette définition.
Dans la saisie de données d'enquête, il est important que les données soient vérifiées.
Cela peut être fait en fournissant des contrôles quand les données sont saisies ou par un
système comme la double saisie. Un système de double saisie est celui dans lequel
deux opérateurs saisissent les mêmes données dans des fichiers séparés qui sont
ensuite comparés. Les différences sont vérifiées par rapport à la version papier
originale des données.
18
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
La saisie double des données est une fonctionnalité automatique dans certains logiciels
conçus pour la saisie des données d’enquête. Dans certains cas, ce logiciel combine
plusieurs des concepts de base de données décrite jusque-là avec des moyens faciles
d'une double saisie. Un exemple de ces logiciels est Epi-Info. C’est gratuit et peut être
téléchargé à partir du Web.
Epi-Info vous propose une méthode rigoureuse de vérification des données. Après que
les entrées aient été saisies et enregistrées dans un fichier, il ya une option pour résaisir et vérifier les entrées dans le fichier de données existant. Les données sont
saisies exactement comme pour les nouvelles entrées. Quand une entrée correspond
aux données dans le fichier le curseur se déplace sur exactement comme pour les
nouvelles entrées. Quand une entrée ne correspond pas un message apparaît et il est
donné une chance à l'opérateur de ré-saisir la valeur ou de comparer l'entrée originale à
la nouvelle et faire un choix.
Les données de Epi-Info peuvent être importées dans Access. Il est donc possible
d'utiliser quelque chose comme Epi-Info pour la phase de saisie de données principale,
puis transférer les données dans Access pour le stockage et la gestion.
Dans Access, vous pouvez définir des règles de validation des champs individuels. La
Figure 11 montre une règle de validation de Compris entre 1 et 47 pour le champ
Activité. Il est également possible de fixer des règles de validation sur la table. Cela
pourrait être utilisé par exemple lorsque la valeur dans un champ ne peut pas dépasser
la valeur dans un autre champ. Par exemple supposons que nous ayons stocké le
nombre de personnes dans le ménage et le nombre d'enfants. Évidemment, il ne peut
avoir plus d'enfants qu’il ya de gens et nous pouvons donc fixer une règle de validation
des [gens]> [enfants] pour la table.
Les logiciels de base de données tels que Access ont été principalement conçus pour
les utilisateurs du monde des affaires où le processus de saisie de données et
d’utilisation des données est un cycle continu. Le cas de la double saisie est moins
évident dans ces conditions et ne sont pas fournis par Access ou d’autres logiciels
similaires de base de données. Dans les enquêtes et les travaux scientifiques,
cependant, il ya une phase reconnue de saisie des données et dans ces cas la
vérification est nécessaire.
Pour toute application donnée, il est relativement facile de construire un système
simple système de double saisie dans Access.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
19
3.4 Utilisation des données
Dans Excel, nous avons montré dans la Figure 7 comment une table croisée
dynamique a été utilisé pour résumer et présenter les données. Dans Access, nous
utilisons des requêtes et des rapports pour faire la même chose.
Une requête simple fournit un moyen d'afficher ou de résumer un sous-ensemble de
données d'une table donnée dans la base de données. Un exemple est montré dans la
Figure 19, qui est semblable à une table croisée dynamique produite par Excel.
Figure 19 – Requête d’analyse croisée, équivalent d’un table croisé dynamique
Toutefois, l'idée d'une base de données est que les tables sont liées. Par conséquent, il
ne sera pas surprenant de constater que les requêtes peuvent porter sur des données
provenant de plusieurs tables. La Figure 20 montre les résultats d'une requête qui
inclut les données, tant au niveau personne qu’au niveau Activité. La requête compte
le nombre d'activités pour chaque individu.
Figure 20 - Requête de comptage des activités pour les personnes sélectionnées
Les résultats d'une requête peuvent être utilisés dans un rapport, utilisés comme base
pour d'autres questions, visualisés avec un formulaire, exportés vers un autre logiciel
ou stockées dans une nouvelle table.
20
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
Une autre façon d'utiliser les données dans Access est de créer des états. Un état
fournit une vue «instantané» des données à un moment donné. Ils peuvent être conçus
pour montrer le même type de données que vous pouvez voir dans une requête, mais
ils s'étendent l'idée d'une requête en permettant un affichage des données ou un résumé
pour répondre à vos besoins. L'extrait ci-dessous à la Figure 21 est tiré d'un état qui
énumère les activités pour chaque individu et pour chaque période.
Figure 21 - Etat de la liste des activités pour chaque période
Contrairement à Excel, lorsque vous enregistrez les requêtes et les états vous
n’enregistrez généralement pas les résultats. Plutôt, vous enregistrez les instructions
qui produisent les résultats. Chaque fois qu'une requête ou un état est exécuté, les
données sont extraites de la (ou des) table (s) sous-jacente (s). Ainsi, les résultats vont
toujours tenir compte des changements récents dans les données. C'est un peu comme
"actualiser" une table croisée dynamique dans Excel de sorte qu'il reflète les
changements dans les données. Les résultats d'un état peuvent être consultés à l'écran,
envoyés à une imprimante ou enregistrés dans un fichier «instantané». Access 2000
contient une Visionneuse d’état qui est utilisé pour afficher ces fichiers de capture
instantanée. La Visionneuse peut être acquise séparément à partir d'Access et d'un addin est disponible pour Access 97 afin de permettre l’enregistrement de fichiers d’état.
Parce que Access stocke les instructions pour exécuter les requêtes et les états il est
possible de faire une enquête pilote, ou simplement collecter quelques entrées au
départ et de développer toutes les requêtes et les états que vous voulez, juste sur la
base des quelques entrées. Les données ne sont utilisées que pour vérifier que vous
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
21
produisez la table ou le résumé approprié. Ensuite, lorsque vous avez saisi toutes les
données réelles, il vous suffit d'exécuter les requêtes et / ou les états pour produire les
résultats.
3.5 Les objets dans Access
Access considère les tables et les formulaires comme des objets. Une base de données
Access peut comprendre jusqu'à six différents types d'objets. Nous avons jusqu'ici
parlé de quatre, à savoir tables, formulaires, requêtes et états. Les deux autres, les
macros et les modules, peuvent être utilisés pour automatiser des tâches et lier les
autres objets dans une application base de données conviviale. L'utilisation de ces
objets n'est pas essentielle pour la pratique d’une bonne gestion des données. Tous les
objets dans une base de données sont accessibles à partir de la fenêtre principale base
de données, dont un exemple est illustré à la Figure 22 ci-dessous.
Figure 22 - Fenêtre Base de données de Access
Les objets sont regroupés par type et en cliquant sur l'onglet approprié, il est facile de
passer de la liste des tables à la liste des formulaires par exemple. Ceci est un exemple
d'un « système » de gestion des données.
3.6 Exportation à partir d'Access
Un aspect qui décourage souvent les utilisateurs d'adopter un logiciel de base de
données tel que Access est la difficulté qu'ils perçoivent dans l'extraction de données
dans un format prêt pour l'analyse. Cependant, par sa nature même Access est plus
souple à cet égard que Excel. Par l'utilisation de requêtes, il est facile d'extraire des
sous-ensembles de données sur la base de critères spécifiques, d’afficher les données
22
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
de tables liées, les données de synthèse, et ainsi effectuer des calculs simples et des
résumés. Les données produites à partir de requêtes peuvent, en cliquant sur un
bouton, être exportées vers Excel.
De nombreux logiciels de statistiques tels que SPSS, GENSTAT et Stata utilisent
maintenant ODBC (Open DataBase Connectivity) pour importer des données
directement à partir de logiciels de base de données. Transférer les données entre
logiciels n'est plus un problème comme autrefois.
Vous vous demandez pourquoi si vous avez déjà vos données dans Excel, vous devez
les transférer Access pour vous voir dire que vous pouvez facilement les exporter vers
Excel. Ce que nous proposons est de stocker et gérer vos données dans Access et puis
extraire des sous-ensembles de celles-ci vers Excel ou un autre logiciel pour l'analyse
quand le besoin se présente. La facilité de transfert de données vous permet d'utiliser
les meilleures caractéristiques de chaque logiciel.
3.7 Revue de Access
Nous avons conclu la section 2 en examinant les points positifs et négatifs sur les
feuilles de calcul. Ici, nous ferons la même chose avec les logiciels de base de
données.
Sur le plan positif, les logiciels de base de données sont conçus pour traiter des
volumes importants et complexes de données. Nous croyons que les éviter, en faveur
des feuilles de calcul, est risqué dans la tâche d'exploiter pleinement les données de
recherche. Les logiciels de base de données exigent une grande partie de "l’utilisation
disciplinée" que nous avons encouragée dans le guide de Excel et dans la première
partie de ce guide. Utiliser une base de données ne garantit pas que vous aurez des
données complètes et sans erreur, mais utilisées de manière efficace, elles peuvent
vous approcher de cet objectif. Le simple fait d'avoir à concevoir des tables pour vos
données vous force à réfléchir sur les données et leur structure. C'est en soi une bonne
chose.
Nous avons vu dans la section 3.4 comment les différents objets dans Access sont
séparés et facilement accessible dans la base de données. Cela diffère sensiblement
dans Excel où les données et les résultats, les tables croisés dynamiques, les calculs,
les graphiques, etc., sont tous stockés de la même manière comme feuilles dans le
classeur. Sauf si vous êtes bien organisé et documentez tous vos travaux, il n'est pas
toujours facile de trouver la feuille que vous recherchez. Dans Access les données et
les résultats sont séparés. En général, les résultats ne sont pas stockés dans la base de
données mais sont générés à chaque fois que la requête ou l’état est exécuté.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
23
Une base de données peut être utilisée comme une étape finale, pour laisser une
archive utilisable après la fin du projet. Dans de tels cas, il est plus efficace d'utiliser
une base de données dès le début, afin que l'équipe du projet puisse bénéficier du
système de gestion des données.
Du côté négatif, une certaine expertise est nécessaire pour construire une base de
données efficace. Parfois, nous constatons que les utilisateurs inexpérimentés
n’ajoutent pas les relations du type représenté sur les Figures 12 et 14. Une base de
données sans relations, c'est comme une feuille de calcul, sauf qu'il est plus difficile de
voir toutes les données.
4. Le flux de données
Dans cette section, nous considérons le «flux» de données pendant la durée de vie d'un
projet de recherche et réfléchissons sur le rôle du logiciel de base de données dans ce
processus.
On peut considérer quatre aspects ici, à savoir la saisie des données, la gestion des
données, l’analyse des données et l'archivage des données. Pour les gros volumes de
données ou des données collectées à plus de deux niveaux, nous vous recommandons
d'utiliser un logiciel de base de données pour la saisie et la gestion des données. Un des
rôles de la gestion des données est de fournir des données de bonne qualité pour
l'analyse. Nous avons déjà dit que l'utilisation d'un logiciel de base de données ne
garantit pas cela en soi mais quand s’il est utilisé efficacement avec les contrôles de
validation, des champs de clé primaire, l'intégrité référentielle sur les relations et ainsi
de suite, nous pouvons au moins aller dans la bonne direction.
Access n'est généralement pas suffisant pour l'analyse des données. Des croisements
de tables sont possibles en utilisant des requêtes, mais le table croisé dynamique de
Excel est beaucoup plus souple. Dans Access, les graphiques sont extrêmement
limités. C'est le point où des sous-ensembles de données doivent être exportés à
d'autres logiciels. Il est important de réaliser que lorsque les données sont exportées
vous avez une duplication - si vous constatez une erreur dans les données exportées, la
correction doit être effectuée dans la base de données et les données exportées à
nouveau. Si ce n'est pas fait alors l'intégrité des données peut être compromise. La base
de données doit contenir la copie définitive des données.
On peut penser à l’archivage des données comme une simple copie de la base de
données contenant toutes les données du projet, mais il peut être beaucoup plus que
cela. Idéalement, il devrait également inclure des copies des graphiques, les résultats
des analyses et des copies des programmes exécutés sur les données. Un CD d'archives
24
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
devrait inclure tous les fichiers de sortie et fichiers de données, que ce soit dans Excel,
SPSS, Access ou autre. Tout cela doit être documenté et une façon de documenter cela
est d'utiliser une base de données. Nous avons vu combien il est facile d'ajouter des
tables d'addition à la base de données ; pourquoi ne pas ajouter une table pour stocker
des informations sur les analyses qui ont été effectués. Une entrée pourrait inclure le
nom du fichier de données, le nom du fichier de résultats, le logiciel utilisé, le type
d'analyse, la date à laquelle l'analyse a été effectuée, la personne qui a conduit
l'analyse, et ainsi de suite. En plus des données texte et numérique Access peut stocker
des images. Il est donc également possible de numériser des photos et des cartes et de
les stocker dans la base de données comme des images.
5. Savoir plus sur un logiciel de base de données
Dans cette section, nous considérons les membres de l'équipe qui ont des compétences
sur Excel et envisagent d'intégrer un logiciel de base de données dans leur travail.
Avec un tableur, comme Excel, il est souvent suffisant pour les membres du personnel
de démarrer sans un cours de formation formelle et il suffit d'ajouter à leurs
connaissances du logiciel quand le besoin se fait sentir.
Les tableurs sont normalement utilisés sur une base individuelle, avec les données à
partager étant souvent copiées à chaque personne. Les bases de données peuvent être
utilisées de la même manière, mais il est généralement plus efficace de partager les
données à partir d'une base de données unique. Ceci est la façon naturelle de
fonctionner lorsque les ordinateurs sont en réseau, mais s'applique même si la base de
données est sur une seule machine autonome.
Ainsi, la mise en place d'une ou plusieurs bases de données impliquera normalement
des décisions sur la responsabilité de la saisie, de la validation et de l'utilisation des
données. Cette formalité supplémentaire est généralement aussi importante pour
assurer des données de bonne qualité.
Quand un logiciel de base de données est utilisé, les choix alternatifs vont de faire
appel à un consultant externe, à procéder d'une approche étape par étape, similaire à
celle souvent utilisée pour Excel. Nous considérons ces choix l’un après l’autre.
5.1 Faire appel à un consultant externe
Une option est de faire appel à un consultant externe ou un professionnel de base de
données pour construire chaque base de données pour le projet. Vous informez le
consultant sur les éléments de données qui doivent être stockées et indiquez comment
vous voulez saisir, afficher et extraire les données. Il crée alors la structure de base de
données avec un ensemble de requêtes, formulaires et états. Le consultant pourrait
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
25
aussi produire une interface à votre base de données afin que les états puissent être
exécutés et des données extraites en cliquant sur un bouton. Cela transforme
efficacement votre base de données en une application. A ce niveau, toute l'équipe du
projet doit savoir comment exécuter cette application. L’introduction à la façon
d'utiliser la base de données peut prendre peut-être une demi-journée à la fin de la
consultation.
Cette option nécessite très peu de temps et d'effort des membres de l'équipe du projet.
Toutefois, cette option est dangereuse et coûteuse et nous n'aurions pas normalement
recommandé cette voie. Si aucun membre de l'équipe ne comprend suffisamment les
principes de base de données, il est souvent difficile de préciser exactement ce qu'il
faut. Les irrégularités dans le cahier des charges deviennent normalement évidentes
lorsque le système initial est livré et plus de temps et de dépenses sont alors
nécessaires pour améliorer le système.
Les modifications et ajouts sont souvent nécessaires pendant la durée du projet et faire
à nouveau appel à une consultant externe demande à la fois du temps et de l’argent.
Enfin, bien qu'il soit facile de trouver des consultants en base de données, la plupart
sont expérimentés dans les applications d'entreprise et vous pouvez leur poser de
nouveaux défis, aussi bien dans les conditions de saisie des données que dans les
requêtes et les états nécessaires.
5.2 Travailler en partenariat avec un consultant externe
Nous pensons qu’une certaine connaissance des bases de données est nécessaire par les
membres de l'équipe du projet pour qu'ils soient en mesure de travailler de manière
constructive avec un consultant. Pour le personnel qui est déjà familiarisés avec
Windows et Excel, cela peut se faire habituellement par un cours de 2 jours et une
semaine, avec environ la moitié du temps consacré à la construction des requêtes et des
états.
La partie difficile du travail est la mise en place de la base de données initiale, avec les
relations et les formulaires de saisie. Nous suggérons qu'un consultant pourrait être
utilisé pour ce travail. Le système tel que livré, devrait également contenir certaines
requêtes et des états.
Dans la section 3.3, nous avons discuté de vérification. Cela devrait être considéré au
stade de la conception de la base de données. Rappelez-vous un consultant externe
peut n’avoir pas considéré cet aspect et il est donc important de bien lui décrire vos
besoins à cet égard.
26
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
Il est alors relativement facile pour le personnel du projet d’ajouter au besoin des
requêtes ou des états supplémentaires. Ils pourraient également apporter des
modifications mineures à la structure. Il ya cependant une différence entre ces deux
types de tâches. Une erreur dans une requête n'affecte que la personne qui souhaite
exécuter la requête, mais une erreur lors du changement de la structure de la feuille
pourrait rendre la base de données inutilisable.
5.3 Construire la base de données en interne
Le niveau final est de construire entièrement la base de données en interne. Cela est
l’approche est évidente si un membre de l'équipe du projet est un expert en base de
données, sinon nous conseillons la prudence. Il est tout aussi facile de construire une
mauvaise base de données comme il l’était d'écrire un mauvais programme il n’y a pas
longtemps. Le schéma des relations ressemble à un plat de spaghettis et il devient
difficile d’élaborer des états ou de modifier la structure.
5.4 Recommandations
Dans les équipes de projet qui ne comprennent pas un expert en base de données, nous
pensons que l'approche de partenariat est normalement appropriée. Le changement
majeur dans les logiciels de base de données ces dernières années a été la facilité avec
laquelle les utilisateurs qui ont relativement peu d'expérience peuvent modifier un
système une fois qu'il est en place.
Alors qu’avec Excel, il peut y avoir le même niveau de formation, le cas échéant, pour
tous les membres de l'équipe, nous conseillons qu'il convient normalement de
sélectionner une partie de l'équipe pour la formation aux rudiments de la gestion de
base de données. Ils pourront, peut-être en collaboration avec un consultant, offrir un
cours d'une journée sur les principes du système actuel pour les données du projet, une
fois une version d'essai est disponible.
Le personnel de saisie de données aurait une formation spéciale. Leur tâche devrait
être plus simple à cause des dispositions disponibles dans un système de base de
données efficace pour faciliter la saisie des données. Si la saisie de données n'est pas
simple, l'équipe du projet devrait demander que des améliorations soient apportées.
Remerciements
Les données utilisées dans ce guide viennent d’études socio-anthropologiques menées
du projet Farming Systems Integrated Pest Management (FSIPM) financé par le DFID
au Malawi. Nous sommes reconnaissants à Julie Lawson-McDowall (anthropologue)
et Mark Ritchie (chef d'équipe, FSIPM) pour la permission d'utiliser les données.
© SSC 2000& 2010 – Rôle d’un logiciel de base de données pour les projets de recherche
27
Le Centre des Services Statistiques est rattaché au Département de statistique
appliquée à l'Université de Reading, Royaume-Uni, et entreprend des formations et des
consultations sur une base non-lucrative pour des clients externe à l'Université.
Ces guides statistiques ont été écrits dans le cadre d'un contrat avec le DFID pour
donner des conseils au personnel de la recherche et de soutien des projets de
ressources naturelles du DFID.
Les titres disponibles sont listés ci-dessous.



















Statistical Guidelines for Natural Resources Projects
On-Farm Trials – Some Biometric Guidelines
Data Management Guidelines for Experimental Projects
Guidelines for Planning Effective Surveys
Project Data Archiving – Lessons from a Case Study
Informative Presentation of Tables, Graphs and Statistics
Concepts Underlying the Design of Experiments
One Animal per Farm?
Disciplined Use of Spreadsheets for Data Entry
The Role of a Database Package for Research Projects
Excel for Statistics: Tips and Warnings
The Statistical Background to ANOVA
Moving on from MSTAT (to Genstat)
Some Basic Ideas of Sampling
Modern Methods of Analysis
Confidence & Significance: Key Concepts of Inferential Statistics
Modern Approaches to the Analysis of Experimental Data
Approaches to the Analysis of Survey Data
Mixed Models and Multilevel Data Structures in Agriculture
Les guides sont disponibles sous forme imprimée et électronique. Pour obtenir des
exemplaires ou pour de plus amples renseignements au sujet du SSC, veuillez utiliser
les coordonnées ci-dessous.
Statistical Services Centre,
University of Reading
P.O. Box 240, Reading, RG6 6FN United Kingdom
tel: SSC Administration
+44 118 378 8025
fax:
+44 118 378 8458
e-mail:
[email protected]
web:
http://www.reading.ac.uk/ssc/
Téléchargement