de variance inter-classes :
B:= 1
nX
`=1...k
n`(gj
`−¯gj)(gu
`−¯gu)!1≤j,u≤k
=G0Diag(n1
n,...,nk
n)Gcar ¯gj= ¯gu= 0
=1
nX
`=1...k
n`g`g0
`p×p
Puisque P`=1...k n`g`= 0, le nuage des glest contenu dans un sous-espace vectoriel de Rpde dimension
k−1et la matrice Bn’est pas inversible. La matrice Bdécrit la géométrie du nuage des kcentres de
gravité.
Les variances intra et inter classes permettent de décomposer la variance totale du nuage :
Proposition 1. La variance du nuage Mse décompose en variance intra-classe et variance inter-
classes :
S=W+B.
2 Analyses discriminantes linéaire et quadratique
On suppose dans cette section que les variables aléatoires Xjsont toutes de type continu.
2.1 Modélisation
On suppose que les variables en jeu sont des variables aléatoires notées Yet Xj, dont on observe des
réalisations xj
1,...xj
net y1, . . . , yn. Supposons de plus que la distribution de Yadmet k≥2modalités.
Pour chacune de ces modalités on considère la loi conditionnelle de X= (X1, . . . , Xp)sachant Y=`
et on suppose que cette loi conditionnelle admet une densité f`pour la mesure de Lebesgue sur Rp
(que l’on note ici λp). On considère
—π`=P(Y=`): la probabilité a priori d’appartenance au groupe `.
—P(Y=`|X=x): la probabilité a posteriori d’appartenance au groupe `.
Proposition 2. Sous les hypothèses précédentes :
1. La distribution du vecteur aléatoire (X, Y )admet la densité
f:Rp× {1,...k} → R+
(x, y)7→ Pk
`=1 f`(x)π` y=`
par rapport à la mesure λp⊗δk, où δkdésigne la mesure ponctuelle d’atomes {1, . . . , k}.
2. La distribution du vecteur Xadmet la densité suivante par rapport à λp:
fX=
k
X
`=1
π`f`.
3. Pour tout `∈ {1...,k}, la probabilité a posteriori d’appartenance au groupe `vérifie :
P(Y=`|X=x) = π`f`(x)
Pk
s=1 πsfs(x)(1)
Les méthodes d’analyse discriminante linéaire et quadratique sont des méthodes d’analyse discrimi-
nantes de type décisionnel. Pour prédire la variable Yà partir des variables X1, . . . , Xp, il est naturel
de s’appuyer sur les probabilités a posteriori. Plus précisément, la règle bayésienne d’attribution
consiste à attribuer une observation au groupe le plus probable pour celle-ci , c’est-à-dire celui pour
lequel la probabilité a posteriori est maximale, ce qui équivaut d’après la relation (1) à choisir
ˆ
Y(x) = Argmax
`=1...k
f`(x)π`.
Cependant, en pratique ces quantités sont inconnues et il faut les estimer à partir des observations
disponibles. Pour cela on proposera différentes hypothèses de modélisation sur la loi de Xsachant Y.
3