4
2. METHODES DE COLLECTE DES DONNEES
La collecte des données vise à répondre aux questions suivantes : Quels sont les individus à prendre en
compte dans mon étude ? Où vais-je les retrouver ? Par quel moyen ? Combien en faut-il ? Comment vais-je les
sélectionner ? Les réponses à ces questions varient selon que les données sont dans des entrepôts de données ou
alors s’il faut les collecter auprès des individus concernés.
Très souvent, les données issues des bases de données et des enquêtes statistiques ne sont pas toutes
exploitables. On est parfois amené à procéder à une sélection pour choisir l’échantillon propice pour l’analyse.
Parmi ces méthodes d’échantillonnage nous pouvons citer :
− Echantillonnage aléatoire simple : l’échantillon est choisi de telle sorte que chaque unité de la
population ait la même probabilité d’être sélectionnée dans l’échantillon et que chaque échantillon
de même taille ait la même probabilité d’être tiré.
−
Echantillonnage Systématique :
On souhaite sélectionner n individus parmi N sujets numérotés de 1 à
N. pour ce faire, On calcule le pas :
N
p=
, puis on tire un nombre aléatoire entre 1 et Ent(p), c’est du
premier individu choisi. Les autres seront obtenus en ajoutant Ent(p) au numéro précédemment choisi.
−
Échantillonnage avec probabilité proportionnelle à la taille : Si la base de sondage renferme
de l'information sur la taille de chaque unité (comme le nombre de filles) et si la taille de ces
unités varie, on peut utiliser cette information dans le cadre de la sélection de l'échantillonnage
afin d'en accroître l'efficacité.
−
Échantillonnage stratifié : on divise la population en groupes homogènes appelés strates, qui
sont mutuellement exclusifs (comme l'âge, la ville de résidence, le revenu, etc.) puis on
sélectionne à partir de chaque strate des échantillons indépendants. On peut utiliser n'importe
quelle des méthodes d'échantillonnage pour sélectionner l'échantillon à l'intérieur de chaque strate.
3. PRETRAITEMENT DES DONNEES
Les données issues des entrepôts ou des enquêtes ne sont pas nécessairement toutes exploitables par des
techniques d’analyse de données. Les données acquises peuvent être de types différents pour la même variable,
on peut avoir les données manquantes ou aberrantes. Dans certaines situations, les données exigent une
transformation telle qu’un centrage par rapport à la moyenne ou une normalisation. La préparation consiste à
homogénéiser les données et à les disposer en tableau lignes/colonnes. Car il s’agit presque toujours de la
structure la mieux adaptée à l’exploitation des données. Les principales opérations de préparation peuvent être
listées comme suit :
a) Sélection de ligne/colonne.
Elle s’effectue sur des données qui sont déjà sous forme tabulaire. Il s’agit de définir un filtre qui permet de
sélectionner un sous-ensemble de lignes ou de colonnes. L’objectif étant, soit de réduire le nombre de données
soit de sélectionner les lignes ou colonnes les plus pertinentes par rapport aux préoccupations de l’utilisateur.
Les techniques mises en œuvre dans ce but relèvent des méthodes statistiques d’échantillonnage. Cette
sélection peut également s’effectuer selon des conditions exprimées par l’utilisateur. Par exemple, il peut ne
garder que les attributs dont la moyenne est supérieure à un seuil donné ou ne conserver que les attributs qui ont
un lien statistique significatif avec un attribut particulier.