1.2.1 Variables numériques
L’espace euclidien Rpest l’espace de représentation de l’analyse (géométrique) des données. Chaque objet
xi∈Xest ici codé par un p-uplet xi=x1
i, x2
i, . . . , xp
idans lequel xj
iest la valeur que prend la j-ième
variable (ou descripteur) sur l’objet xi. Le tableau ci-après montre un exemple d’objets (les lignes) décrites
par des données numériques (les colonnes).
En analyse des données, la démarche diffère de celle adoptée en statistique inférentielle où l’ensemble des
objets est souvent vu comme un échantillon d’une population plus vaste et l’on cherche à trouver des infor-
mations sur cette population à partir de l’échantillon considéré. Ici, Xest la population et les valeurs prises
par chaque variable constituent une distribution observée à partir de laquelle on peut calculer des paramètres
(la moyenne, la variance, . . . ), expliquer les valeurs prises par certaines variables à partir de valeurs prises
par d’autres (régressions), ou encore structurer les données (analyses factorielles).
1.2.2 Variables ordinales et nominales
Nous ne parlerons que très peu de ce genre de données par la suite, et nous nous restreindrons aux variables
booléennes, dont le tableau suivant donne un exemple.
?A : l’animal pond-t-il des oeufs ?
?B : présence de plumes ?
?C : présence d’écailles ?
?D : présence de dents ?
?E : l’animal vole-t-il ?
?F : l’animal nage-t-il ?
?G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ?
Table 1.1 – tableau booléen
A B C D E F G
Autruche 1 1 0 0 0 0 1
Canari 1 1 0 0 1 0 1
Canard 1 1 0 0 1 1 1
Requin 1 0 0 1 0 1 0
Saumon 1 0 1 0 0 1 0
Grenouille 1 0 0 0 0 1 1
Crocodile 1 0 0 1 0 1 1
Barracuda 1 0 1 1 0 1 0
Ce genre de données peut être représenté en utilisant une terminologie booléenne. Soit Xl’ensemble des N
objets décrits par un ensemble A={A, B, C, . . .}de pattributs ou variables binaires. Chacun, par exemple
A, peut prendre les valeurs a(dite forme directe, codée 1) et ¯a(dite forme indirecte, codée 0). Ceci peut
être ramené à un tableau de valeurs 0 ou 1 avec Nlignes correspondant aux éléments de Xet pcolonnes
correspondant aux attributs.
Le tableau est alors équivalent à la formule Φci-après qui est vérifiée par les assignations induites par les
lignes :
Φ = ab¯c¯
d¯e¯
fg ∨ab¯c¯
de ¯
fg ∨ab¯c¯
defg ∨a¯
b¯cd¯ef ¯g∨
a¯
bc ¯
d¯ef ¯g∨a¯
b¯c¯
d¯efg ∨a¯
b¯cd¯efg ∨a¯
bcd¯ef ¯g
5