Analyse de données et classification bayésienne

publicité
Parcours OMIS - 3A - École Centrale Marseille
Module Informatique Décisionelle
Analyse de données
et classification bayésienne
Stéphane DERRODE
[email protected]
Version 2.1 - Novembre 2013
Table des matières
1 Les données
4
1.1
Espace de représentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2
Espace engendré par les variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2.1
Variables numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.2
Variables ordinales et nominales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
1.2.3
Espace des modèles
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
Distances et similitudes dans les espaces de représentation . . . . . . . . . . . . . . . . . . . .
6
1.3.1
Variables continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3.2
Variables booléenne (présence / absence) . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3
2 Variables à 1 ou 2 dimensions
2.1
2.2
9
Description d’une variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.1.1
Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.1.2
Valeurs centrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.1.3
Paramètres de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
2.1.4
Boîte à moustaches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
Description de deux variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.1
Nuage de points et régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2.2
Corrélation linéaire et axe principal . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
3 Analyse en composantes principales
17
3.1
Exemple avec les mains . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.2
Principe de la méthode (sans les mains) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
3.3
Reformulation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.3.1
19
Matrice de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
3.3.2
Matrices de description . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
3.3.3
Réduction des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.4
Recherche de sous-espaces optimaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
3.5
Inertie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
3.6
Description du nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
4 Décision bayésienne
24
4.1
Introduction et motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
4.2
Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.3
Stratégie bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
4.4
Exemple : cas gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
3
Chapitre 1
Les données
Fortement inspiré du cours de F. Brucker, Analyse des données, 2007.
1.1
Espace de représentation des données
Ensemble fini X d’objets noté x1 , x2 , . . . , x, y, z (taille N ).
Pour analyser les objets dans X, il faut disposer d’informations permettant de les comparer ou de les
caractériser à l’aide de paramètres ou de descripteurs.
On plonge ainsi les objets dans un espace de représentation, engendré par les variables issues des descripteurs.
Les variables peuvent être numériques, ordinales ou nominales.
On parlera souvent d’individu pour caractériser les objets de X et de caractères pour les variables associées.
Variable
? numérique : discrète (crédit sur un compte en centimes) ou continue (poids, taille).
? ordinale : ne retient que des comparaisons entre des valeurs (Je préfère x à y, x est plus intéressant
que y. . . ).
? nominale : ensemble de valeurs non comparables (catégorie socio-professionnelle, couleur, appartenance politique). Comme cas particulier : les variables binaires (présen ce/absence d’un caractère ou
1/2 sexe à la sécurité sociale)
1.2
Espace engendré par les variables
Supposons que nos N objets soient décrits par un ensemble de p variables. L’espace de représentation qui
leur sera associé sera le produit cartésien des ensembles engendrés par chaque variable. On a ainsi = Rp
lorsque les variables sont continues ; tandis dans dans les autres cas on peut poser = N p . Les variables
p
booléennes correspondant au cas particulier {0, 1} .
4
1.2.1
Variables numériques
L’espace euclidien Rp est l’espace de représentation de l’analyse (géométrique) des données. Chaque objet
xi ∈ X est ici codé par un p-uplet xi = x1i , x2i , . . . , xpi dans lequel xji est la valeur que prend la j-ième
variable (ou descripteur) sur l’objet xi . Le tableau ci-après montre un exemple d’objets (les lignes) décrites
par des données numériques (les colonnes).
En analyse des données, la démarche diffère de celle adoptée en statistique inférentielle où l’ensemble des
objets est souvent vu comme un échantillon d’une population plus vaste et l’on cherche à trouver des informations sur cette population à partir de l’échantillon considéré. Ici, X est la population et les valeurs prises
par chaque variable constituent une distribution observée à partir de laquelle on peut calculer des paramètres
(la moyenne, la variance, . . . ), expliquer les valeurs prises par certaines variables à partir de valeurs prises
par d’autres (régressions), ou encore structurer les données (analyses factorielles).
1.2.2
Variables ordinales et nominales
Nous ne parlerons que très peu de ce genre de données par la suite, et nous nous restreindrons aux variables
booléennes, dont le tableau suivant donne un exemple.
? A : l’animal pond-t-il des oeufs ?
? B : présence de plumes ?
? C : présence d’écailles ?
? D : présence de dents ?
? E : l’animal vole-t-il ?
? F : l’animal nage-t-il ?
? G : l’animal respire-t-il dans l’air (1) ou dans l’eau (0) ?
Table 1.1 – tableau booléen
Autruche
Canari
Canard
Requin
Saumon
Grenouille
Crocodile
Barracuda
A
1
1
1
1
1
1
1
1
B
1
1
1
0
0
0
0
0
C
0
0
0
0
1
0
0
1
D
0
0
0
1
0
0
1
1
E
0
1
1
0
0
0
0
0
F
0
0
1
1
1
1
1
1
G
1
1
1
0
0
1
1
0
Ce genre de données peut être représenté en utilisant une terminologie booléenne. Soit X l’ensemble des N
objets décrits par un ensemble A = {A, B, C, . . .} de p attributs ou variables binaires. Chacun, par exemple
A, peut prendre les valeurs a (dite forme directe, codée 1) et ā (dite forme indirecte, codée 0). Ceci peut
être ramené à un tableau de valeurs 0 ou 1 avec N lignes correspondant aux éléments de X et p colonnes
correspondant aux attributs.
Le tableau est alors équivalent à la formule Φ ci-après qui est vérifiée par les assignations induites par les
lignes :
¯ f¯g ∨ abc̄de
¯ f¯g ∨ abc̄def
¯ g ∨ ab̄c̄dēf ḡ ∨
Φ = abc̄dē
¯ ḡ ∨ ab̄c̄dēf
¯ g ∨ ab̄c̄dēf g ∨ ab̄cdēf ḡ
ab̄cdēf
5
La formule Φ est alors vraie si et seulement si les variables binaires correspondent à une ligne du tableau.
En effet, chaque ligne du tableau est une suite de variables binaire liée par des ’ET’ (la première ligne du
¯ f¯g qui correspond à l’autruche), chaque ligne étant liée aux autres par des ’OU’ (le
tableau est ainsi abc̄dē
symbole ∨).
En utilisant le calcul dans les algèbres de Boole, on peut simplifier Φ. Par exemple, à chaque fois qu’on a
deux monômes du type xµ ∨ x̄µ, on peut utiliser la règle xµ ∨ x̄µ = µ. Après simplification, la formule donne
¯ f¯ ∨ ef ) ∨ b̄c̄ēf (dḡ ∨ g) ∨ b̄cēf ḡ a
Φ = bc̄dg(
Puis en utilisant la règle x ∨ x̄µ = x ∨ µ, on obtient finalement
¯ f¯ ∨ e) ∨ b̄c̄ēf (d ∨ g) ∨ b̄cēf ḡ a
Φ = bc̄dg(
La simplification de Φ montre que la variable ’a’ n’est pas pertinente pour décrire les différences entre nos
animaux puisqu’ils pondent tous des oeufs (la variable ’a’ est vraie pour toutes les lignes). Cette formule
réduite peut se représenter comme dans la figure suivante, qui permet de caractériser les différences entre
les individus.
Cette figure montre par exemple que les différences entre un canard et une autruche est alors e et f, une
autruche ne volant pas et un canard ne nageant pas. Attention, les animaux peuvent se retrouver dans
plusieurs branches, ainsi la différence entre une autruche et un canari étant uniquement la variable ’e’
(l’autruche se différenciant du canari par le fait qu’elle ne vole pas).
1.2.3
Espace des modèles
Analyser des données revient à les réorganiser selon la méthode choisie. Chaque méthode opère un recodage
des données, les plongeant dans un autre espace appelé espace des modèles.
Si l’espace de représentation correspond à un espace “naturel” de représentation des données, l’espace des
modèles correspond à un espace de travail où les données sont itérativement traitées (re-codées) jusqu’à la
fin de l’analyse. On obtiendra ainsi par exemple des classes d’objets, ou encore un ensemble de vecteurs
sur lesquels on projette les objets. C’est de cet espace que l’on pourra déduire des connaissances propres
aux données, c’est à dire de reconnaître des configurations, des structures, des formes, induites par les
caractéristiques propres des objets.
Analyser des données est ainsi un processus où l’on commence par choisir les caractéristiques des objets
que nous voulons analyser (les placer dans l’espace de représentation), puis une méthode d’analyse (une
classification non-hiérarchique, ou une analyse en composantes principales par exemple). Les résultats (dans
l’espace des modèles) pouvant alors être interprétés et nous renseigner sur les objets eux-mêmes (ceux du
vrai monde).
1.3
Distances et similitudes dans les espaces de représentation
Comme vu dans la partie précédente, le choix de caractères permettant de décrire les objets à analyser permet
de les situer dans un espace de représentation . Reconnaître des structures induites par cette représentation
implique une étape préliminaire qui est de se doter d’outils métriques permettant de mesurer des distances
(ou des ressemblances, des dissemblances, . . . ) entre lesdits objets. Pour cela, il nous faut associer à chaque
paire d’objets un nombre positif ou nul, d’autant plus petit que les objets sont “semblables” (ou, si cela à
un sens dans , que les objets sont “proches” l’un de l’autre).
6
On appelle distance sur un ensemble une application d : × → R+ vérifiant les propriétés suivantes :
Nom
Propriété
symétrie
∀x, y ∈ E, d(x, y) = d(y, x)
séparation
∀x, y ∈ E, d(x, y) = 0 ⇔ x = y
inégalité triangulaire ∀x, y, z ∈ E, d(x, z) ≤ d(x, y) + d(y, z)
Voyons maintenant quelques types particuliers de distances parmi les plus usités, pour des variables continues
et des variables booléennes.
1.3.1
Variables continues
Nous nous restreignons ici aux distances issues des normes Lq . Les distances de corrélation et la distance du
χ2 seront étudiées plus tard, dans le cadre de l’analyse en composantes principales et de l’analyse factorielle
des correspondances. On rappelle que pour un espace de représentation = Rp , chaque objet xi ∈ X est un
vecteur à p dimensions xi = x1i , . . . xpi . On peut ainsi définir les distances :
? L1 (encore appelée distance de Manhattan, ou “city block distance”) :
d(xi , xj ) =
X 1
|xk − xkj |
p i
1≤k≤p
? L2 (encore appelée distance euclidienne) :
s
d(xi , xj ) =
X 1
(xk − xkj )2
p i
1≤k≤p
? et plus généralement Lq :
 q1
X 1
d(xi , xj ) = 
|xk − xkj |q 
p i

1≤k≤p
? et, finalement L∞ (encore appelée distance du sup ou norme uniforme) :
d(xi , xj ) = sup |xki − xkj |
1≤k≤p
1.3.2
Variables booléenne (présence / absence)
p
Ici, l’espace de représentation est = {0, 1} . Une variable positionnée à 1 (respectivement 0) signifie la
présence (respectivement l’absence) de l’attribut. Seule la valeur 1 est ainsi significative.
Si l’on considère les variables comme des attributs (présents ou absents), chaque objet xi possède un ensemble
Ei de caractères (Ei est donc constitué des variables qui prennent sur xi la valeur 1). En notant E\F
l’ensemble des éléments de E qui ne sont pas dans F , la différence symétrique entre Ei et Ej peut s’écrire :
Ei 4Ej = (Ei \Ej ) ∪ (Ej \Ei ). De là, on peut déduire un grand nombre de distances dont :
? la distance de la différence symétrique :
d(xi , xj ) = |Ei 4Ej |
? la distance de la différence symétrique normalisée (encore appelée distance de Hamming) :
d(xi , xj ) =
|Ei 4Ej |
p
? la distance de Jaccard :
d(xi , xj ) = 1 −
7
|Ei ∩ Ej |
|Ei ∪ Ej |
? distance de Czekanovski-Dice :
d(xi , xj ) = 1 −
? distance de Ochiaï :
2|Ei ∩ Ej |
|Ei | + |Ej |
|Ei ∩ Ej |
1− p
|Ei |.|Ej |
? distance de Braun-Blanquet :
1−
|Ei ∩ Ej |
max{|Ei |, |Ej |}
1−
|Ei ∩ Ej |
min{|Ei |, |Ej |}
? distance de Simpson :
? ...
Toutes ces distances permettent de mesurer des différences entres objets. Il convient de bien choisir sa
distance selon les différences que l’on veut mesurer. De façon classique, lorsque le choix d’une distance à
utiliser n’est pas évidente, on a coutume d’utiliser la distance de Jaccard qui est un bon compromis.
Exercice Calculer la distance de Jaccard entre une autruche et un crocodile.
Eautruche = {a, b, g} ,
Ecroco = {a, d, f, g}
d (autruche, croco) = 1 −
2
3
=
5
5
d (autruche, autruche) = 1 −
5
=0
5
Travaux pratiques chercher classer les animaux dans l’ordre de leur distance à l’autruche. Chaque élève
choisi une distance, comme cela nous pourrons comparer les résultats.
8
Chapitre 2
Variables à 1 ou 2 dimensions
Fortement inspiré du cours de F. Brucker, Analyse des données, 2007.
On s’intéresse dans ce chapitre aux espaces de représentation tels que = R (partie 2.1) et = R2 (partie
2.2). La statistique descriptive permet un pré-traitement efficace des données, en brossant l’allure générale
des données (moyenne, écart-type, . . . ) et fournit des représentations graphiques (histogrammes, boîte à
moustaches, . . . ) permettant de synthétiser les résultats.
L’exemple fil-rouge que nous utiliserons ici est constitué d’une population de 26 étudiants passant un contrôle.
Pour chaque candidat, on note :
? le temps mis à effectuer l’épreuve (variable x),
? le nombre d’erreurs commises (variable y).
2.1
Description d’une variable
L’espace représentation associé à os objets est ici l’ensemble des nombres réels.
2.1.1
Distribution
DÃľfinition 1 On
appellera
distribution
statistique
de
X
la
donnée
des
couples
{(c1 , n1 ), . . . , (ci , ni ), . . . , (ck , nk )} tel que les ci forment un partition en k intervalles de l’ensemble
des valeurs prises par la variable (c1 = [a0 , a1 ], ci =]ai−1 , ai ], ck =]ak−1 , ak ]) et les ni le nombre de valeurs
observées dans l’intervalle ci . Par convention le centre des intervalles est également noté ci .
Table 2.1 – Résultats d’examen pour 26 candidats
Candidat no
x
y
1
15
4
2
15
5
3
20
10
4
10
0
5
15
4
6
30
10
7
10
2
8
10
5
9
5
0
10
5
1
11
5
0
12
10
3
13
10
3
Candidat no
x
y
14
20
6
15
15
3
16
10
2
17
5
0
18
20
6
19
30
8
20
30
5
21
30
10
22
40
12
23
10
3
24
5
0
25
10
2
26
10
3
9
Le nombre d’intervalles dans une distribution statistique est choisi en fonction de n, de manière à représenter
P
le mieux possible la distribution des valeurs et on a n = 1≤i≤k ni . Il n’existe pas de choix pertinent du
nombre et de l’amplitude des intervalles, mais il est plus aisé de prendre des intervalles de même amplitude
et, empiriquement, on a coutume d’utiliser la règle de Sturges comme choix de k :
k =1+
10 ln (n)
.
3 ln (10)
DÃľfinition 2 Pour une distribution statistique donnée, on appellera fréquence de i le rapport fi =
P
sa fréquence cumulée la somme Fi = f1 + f2 + · · · + fi = 1≤j≤i fj .
ni
n,
et
DÃľfinition 3 On appelle histogramme des fréquences pour une distribution statistique donnée
((]aj−1 , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les intervalles sont reportées en abscisse et au-dessus
de chacune d’elle un rectangle d’aire égale ou proportionnelle à la fréquence de la classe est tracé.
Attention, ce sont les aires des rectangles qui sont importantes. Lorsque les “bases” des rectangles sont
identiques, “la hauteur” est alors proportionnelle à l’aire mais dans quelques (rares) cas les bases seront de
longueurs différentes et dans ces cas là il faudra faire attention.
Remarque 1 Pour le cas d’une distribution statistique associée à une variable discrète ((cj , nj ) pour 1 ≤
j ≤ k), l’histogramme des fréquences est le graphique tel que les modalités cj sont reportées en abscisse et
au-dessus de chacun des cj un segment de hauteur égale ou proportionnelle à la fréquence de la modalité est
tracé.
DÃľfinition 4 On appelle graphique des fréquences cumulées pour une distribution statistique donnée
((]aj−1 , aj ], nj ) pour 1 ≤ j ≤ k), le graphique tel que les intervalles sont reportées en abscisse et au-dessus
de chacune d’elle un rectangle de hauteur égal à Fi est tracé.
2.1.2
Valeurs centrales
Aussi appelées paramètres de positions, les valeurs centrales sont des nombres autour desquels se répartissent
les valeurs observées de la variable considérée. C’est autour d’elles que sont calculés les paramètres de
dispersion. Il y a essentiellement deux paramètres de positions pour une variable : la moyenne et la médiane.
DÃľfinition 5 La moyenne x̄ d’un ensemble de valeurs x est définie par l’expression :
1 X
x̄ =
xi
n
1≤i≤n
Pour définir la médiane, il faut tout d’abord ranger les éléments de X par ordre croissant. Si l’on note x1 ,
x2 , . . ., xn les n valeurs prises par la variable x, on notera x(1) , x(2) , . . .x(n) ces mêmes éléments rangés par
ordre croissant (si, par exemple, x1 = 12, x2 = 1 et x3 = 1 on aura x(1) = 1, x(2) = 1 et x(3) = 12).
Par exemple, la médiane de la variable x de la table de notes est 10.0. Cette définition implique des résultats
différents selon la taille de n. Si n est impair, d = 0 et la médiane est une des valeurs de la variable et si n
est pair, la médiane vaut la moyenne des deux valeurs centrales.
Enfin, on définit la classe modale, qui est un paramètre de position associé à une distribution statistique.
Pour la distribution statistique des notes d’étudiants, la classe modale est ]7.5, 12.5]
DÃľfinition 6 On appelle classe modale mo(x) d’une distribution statistique (]aj−1 , aj ], nj ) (pour 1 ≤ j ≤
k) d’une variable x est égal à un intervalle ]ai−1 , ai ] tel que ni = max1≤j≤k {nj }
10
2.1.3
Paramètres de dispersion
Les paramètres de dispersion sont des nombres permettant de mesurer l’amplitude des variations autour
d’une valeur centrale.
Les paramètres de dispersion que nous définirons dans cette partie sont essentiellement de deux types, ceux
liés (de près ou de loin) à la variance, et ceux liés à la répartition des valeurs (les quartiles).
DÃľfinition 7 La variance d’un ensemble x est le nombre s2 (x) défini par l’expression :
s2 (x) =
1 X
(xi − x̄)2 .
n
1≤i≤n
La racine carrée de s2 (x), notée s(x) est appelé écart-type.
On peut (facilement) démontrer que la variance est également égal à s2 (x) = ( n1
plus pratique lorsque l’on doit calculer une variance à la main.
P
1≤i≤n
x2i ) − (x̄)2 , formule
Remarque 2 Attention : il ne faut pas confondre variance et variance corrigée. La variance corrigée s2c (x)
définie par l’expression :
X
1
n 2
s2c (x) =
(xi − x̄)2 =
s (x)
n−1
n−1
1≤i≤n
est un estimateur et non un paramètre de dispersion.
Lorsque les (xi ) sont un échantillon d’une population plus grande on a coutume d’utiliser la variance corrigée
s2c (x) puisqu’elle est sans biais. Cependant dans le cas qui nous occupe, les (xi ) représentent la population
en son entier, sa variance est donc égale à s2 (x) et nous n’avons pas à nous soucier de la variance corrigée.
Autres paramètres de dispersion
DÃľfinition 8 Le coefficient de variation cv(x) est défini par l’expression :
cv(x) = 100
s(x)
x̄
Si la population est plus grande que l’échantillon considéré, le coefficient de variation utilise sc (x) et non
plus s(x), il est alors défini par l’expression : cv(x) = 100 scx̄(x) .
L’étendue d’une variable qui est le paramètre de dispersion e(x) défini par la différence entre la plus
grande et la plus petite valeur de la variable étant très sensible aux valeurs extrêmes, on préférera utiliser
les quartiles pour calculer la répartition des valeurs.
DÃľfinition 9 On défini les quartiles comme suit. Soient m et d les parties entières et décimales de n+1
4
et m0 et d0 les parties entières et décimales de 3(n+1)
. On notera, comme en 2.1.2, x(1) , x(2) , . . ., x(n) les
4
valeurs de x rangées par ordre croissant.
? le premier quartile noté q0,25 (x) est défini par l’expression : q0,25 (x) = x( m) + d(x(m+1) − x(m) ),
? le deuxième quartile noté q0,5 (x) est égal à la médiane de x,
? le troisième quartile noté q0,75 (x) est défini par l’expression : q0,75 (x) = x( m0 )+d0 (x(m0 +1) −x(m0 ) ).
L’étendue inter-quartile IQR(x) étant défini par IQR(x) = q0,75 − q0,25 .
11
Ces paramètres de dispersion permettent de définir des intervalles où se trouvent un pourcentage donné de
valeurs. Par exemple, il y a 25% des valeurs en dessous de q0,25 , entre q0,25 et q0,5 , entre q0,5 et q0,75 , et
au-dessus de q0,75 . De même, il y a 50% des valeurs de la variable au-dessous de q0,5 , au-dessus de q0,5 et
dans IRQ(x).
Si l’on veut raffiner (d’aucun diraient chipoter), on peut de la même manière définir des déciles (on découpe
en dixième et non plus en quart) ou des centiles (on découpe en centième).
2.1.4
Boîte à moustaches
La boîte à moustache (encore appelée boxplot) est un graphique permettant d’observer globalement les paramètres de position et de dispersion.
DÃľfinition 10 Une boîte à moustache est un graphique constitué de deux axes : l’axe vertical, muni d’une
échelle numérique qui correspond aux valeurs la variable observée et l’axe horizontal, sans échelle. Un segment
horizontal (de longueur arbitraire) est é en regard de la médiane, puis une boîte est reportée avec les côtés
supérieur et inférieur en regard de q0,75 et q0,25 respectivement. Enfin, deux segments verticaux sont tracés
vers l’extérieur de la boîte (les moustaches) joignant le milieu du côté supérieur (resp. inférieur) à la plus
grande (resp. la plus petite) valeur inférieure ou égale (resp. supérieure ou égale) à q0,75 + 32 IQR(x) (resp.
q0,25 − 32 IQR(x)).
On peut également rajouter deux points marquant les valeurs les plus extrêmes si elles ne sont pas dans
les moustaches, et un autre point en regard de la moyenne. Les extrémités de la boîte à moustache sont
appelées valeurs adjacentes, et lorsque qu’une valeur se trouve au-delà des valeurs adjacentes, elle peut être
considérée comme extrême et peut éventuellement être omise.
2.2
Description de deux variables
L’espace de représentation associé à nos objets est ici l’ensemble R2 , tout xi ∈ X est donc un couple de
réels xi = (x1i , x2i ). La table étudiant est un exemple de ce type d’espace de représentation. Ceci revient à
considérer un ensemble X d’objets par deux variables réelles, x et y par exemple.
2.2.1
Nuage de points et régression linéaire
Supposons que l’on cherche à décrire l’ensemble X d’objets décrit par deux variables réelles x et y. On
appellera champ du couple (x, y) l’ensemble K = {(xi , yi )|1 ≤ i ≤ n} que l’on peut représenter dans le
plan par n points Mi d’abscisse xi et d’ordonnée yi , le centre de gravité du nuage étant bien évidemment
le point G = (x̄, ȳ). Le nuage de points de la figure montre le graphique associé à la table étudiant du
nombre d’erreurs commises par rapport au temps mis pour effectuer l’examen, le centre gravité du nuage
étant représenté par un ’+’.
Un simple regard sur le nuage peut informer sur l’existence et la forme d’une éventuelle liaison entre les deux
variables. On peut par exemple chercher à déterminer une éventuelle liaison linéaire entre les deux variables
(le nuage a tendance à s’étirer le long d’une droite), on peut alors tenter d’expliquer la variable y (appelée
variable expliquée) par la variable x (appelée variable explicative). On cherche ainsi à déterminer s’il existe
deux réels a et b tels que pour tout 1 ≤ i ≤ n : yi ' a + bxi .
La manière la plus courante pour arriver à nos fins est d’utiliser la méthode des moindres carrés, c’est à dire
12
trouver deux réels a et b qui réalisent le minimum de :
h(a, b) =
n
X
1
(yi − a − bxi )2 .
n
i=1
Le nombre h(a, b) est appelé résidu quadratique. Il quantifie l’écart de nos données par rapport à la droite
sensée les représenter. Trouver le minimum de h(a, b) se fait simplement en utilisant la méthode dite “gros
bourrin” : on dérive par rapport à a et b.
A faire en exercice
On a alors :
De là,
∂h(a,b)
∂a
∂h(a, b)
1X
= −2
(yi − a − bxi ) = −2y + 2a + 2bx
∂a
n i
= 0 implique que :
a = y − bx
∂h(a,b)
∂b
(2.1)
P
= −2 n1 i xi (yi − a − bxi )
P
P
= −2[ n1 i xi yi − ax − b n1 i x2i ]
En remplaçant a par y − bx, on obtient alors :
P
P
∂h(a,b)
= −2[ n1 i xi yi − (y − bx)x − b n1 i x2i ]
∂b
P
P
= −2[ i n1 (xi yi − xy) + b(x2 − n1 i x2i )]
P
= −2[ n1 i (xi − x)(yi − y) + bs2 (x)]
On pose alors cov(x, y) =
conduit à :
1
n
P
1≤i≤n (xi − x̄)(yi − ȳ)
(appelée covariance de x et de y), et l’équation
b=
∂h(a,b)
∂b
=0
cov(x, y)
s2 (x)
Remarque 3 La covariance est une généralisation de la variance pour deux variables. Elle permet de voir
comment varie une variable par rapport à l’autre. Une valeur positive de covariance entre x et y montre que
lorsque x augmente (resp. diminue) y à tendance à augmenter (resp. diminue) également et une valeur négative de la covariance montre qu’en général si x augmente (resp. diminue) y va diminuer (resp. augmenter).
On a de plus que cov(x, x) = s2 (x) ≥ 0.
La droite obtenue est appelée droite de régression linéaire de y par x et possède la propriété de passer par
le centre de gravité du nuage (i.e. ȳ = a + bx̄, cf (2.1)). Le résidu quadratique vaut alors (A faire en
exercice) :
2 !
cov(x, y)
2
h(a, b) = s(y) 1 −
s(x)s(y)
La qualité de la régression sera d’autant meilleure que ce résidu est faible. Pour cela, deux facteurs seront
prédominants :
? un faible écart-type de la variable y,
(x,y)
? une forte valeur de cov
s(x)s(y)
La figure suivante reprend le nuage de la figure précédente en y ajoutant la droite de régression linéaire. On
a a = −0.85 et b = 0.33.
13
2.2.2
Corrélation linéaire et axe principal
Figure 2.1 – les deux droites de régression linéaires de la table 2.1
Dans la partie précédente, on a choisi d’expliquer une variable (la variable y de la table étudiant) par une
autre (la variable x de la table étudiant). Ce choix peut paraître arbitraire puisque l’on aurait pût tout aussi
bien tenter d’expliquer la variable x par la variable y et obtenir une droite de régression différente, comme
le montre la figure ?? où les deux droites de régression sont superposées.
Comme vue dans la partie 2.2.1, les deux droites de régressions linéaires passent par le centre de gravité
du nuage, les deux droites sont alors égales si et seulement si leurs pentes le sont. Comme x = a0 + b0 y est
0
équivalent à y = − ab0 + b10 x, les pentes des droites de régression y = a + by et x = a0 + b0 y sont égales si et
seulement si b = b10 , c’est à dire si et seulement si :
cov(x, y)
s(x)s(y)
2
=1
(x,y)
On note r(x, y) la quantité cov
s(x)s(y) = r(x, y) et on l’appelle (fort justement) coefficient de corrélation linéaire.
On peut prouver que |r(x, y)| ≤ 1) quelques soient x et y et que |r(x, y)| = 1 si et seulement si les points
(xi , yi ) (1 ≤ i ≤ n) sont alignés.
Remarque 4 Une valeur de r(x, y) proche de 1 signifie donc que si x augmente, y augmente également de
façon linéaire (et que si y augmente, x augmente également) et une valeur de r(x, y) proche de -1 signifie
que si x augmente, y décroît (et réciproquement).
En fait, plus r2 (x, y) est proche de 1, plus le nuage de points se concentre autour d’une droite passant par
14
le centre de gravité du nuage et ayant une pente intermédiaire entre la droite de régression de y par x et la
droite de régression de x par y. Cette droite est appelée axe principal.
L’axe principal peut s’obtenir directement en changeant la droite à optimiser. Soit D une droite d’équation
y = aD + bD x. Chercher la droite de régression de y par x revient à chercher la droite Dy qui minimise la
somme des carrés des écarts |yi − aD − bD xi | (le segment vertical en pointillé sur la figure 2.2). De la même
manière chercher la droite de régression de x par y revient à chercher la droite Dx qui minimise la somme
D
des carrés des écarts |xi + abD
− b1D yi | (le segment horizontal en pointillé sur la figure 2.2).
(xi,yi)
droite D
Figure 2.2 – les différentes optimisations par rapport à D
On voit bien par là que la régression de y par x et la régression de x par y ne permet d’obtenir la même
droite que si les points sont déjà alignés. L’axe principal est le résultat d’une autre forme d’optimisation :
on cherche la droite D∗ qui minimise la somme des carrés des distances des points (xi , yi ) à la droite (le
segment en gras sur la figure 2.2).
La figure 2.3 montre le nuage de points de la table 2.1, les deux droites de régressions (en traits pleins) et
l’axe principal (en pointillés).
Les quantités que nous venons d’introduire s’interprètent dans Rn muni de la norme euclidienne. cov(x, y)
est le produit scalaire de ~v (x) − x̄~i et ~v (y) − ȳ~i. r(x, y) est le cosinus de l’angle de ~v (x) − x̄~i et ~v (y) − ȳ~i.
L’alignement dans R2 du nuage correspond à la colinéarité dans Rn des vecteurs définis par les variables, la
corrélation nulle correspond à l’orthogonalité, dans ce dernier cas on dit que les variables sont indépendantes.
15
Figure 2.3 – droites de régression linéaires et axe principal de la table 2.1
16
Chapitre 3
Analyse en composantes principales
On s’intéressera dans ce chapitre aux objets de X décrits par p variables réelles. L’espace de représentation
associé est ainsi Rp .
3.1
Exemple avec les mains
Lorsque la population à étudier est décrite par deux variables, la simple lecture de leurs valeurs (du nuage
produit) peut éventuellement fournir une idée de la force de la liaison entre les deux variables, comme le
montre la figure.
L’étude visuelle du nuage ne donne cependant que rarement toute l’information désirée. L’exemple fil rouge
du chapitre précédent (base d’étudiants) est à cet égard significatif. Le coefficient de corrélation linéaire élevé
(r(x, y) = 0.9) conduisant à une explication linéaire des données.
Partant de nos données, on est parvenu à dégager deux variables pertinentes pour décrire le comportement
de notre population : l’attitude et l’aptitude. Remarquons que celles-ci décrivent des phénomènes que l’on
suppose (au moins intuitivement) indépendant : les deux axes déterminés sont orthogonaux.
Appelons facteurs nos deux nouvelles variables (elles remplacent les variables “temps” et “erreurs”), ils seront
d’autant plus pertinents avec nos données que nos variables d’origines ont une forte corrélation avec au moins
un de nos nouveaux axes (l’autre axe étant obtenu par orthogonalité).
Reste à extraire les facteurs. On peut pour cela faire une analogie avec la mécanique. Si l’on assimile nos
objets à des points matériels, la droite la plus proche du nuage de points est celle qui correspond à l’axe
principal d’inertie du nuage. Cet axe est exactement l’axe principal définie dans le chapitre précédent.
Cet exemple à deux variables montre le but de l’analyse en composantes principale : déterminer
des axes pertinents pour l’explication des corrélations entre variables.
3.2
Principe de la méthode (sans les mains)
Si l’analyse visuelle du nuage peut nous permettre, soit de dégager directement la structure, soit de déterminer
des axes pertinents, lorsque les objets sont décrits par plus de trois variables (sinon, on peut toujours
représenter le nuage dans l’espace), la représentation graphique devient impossible. Ainsi, les dix catégories
socioprofessionnelles de la table 3.1 sont représentables dans un espace à six dimensions (ce qui graphiquement
17
commence à faire mal aux yeux). Si l’on veut cependant obtenir une représentation graphique plane de la
table 3.1, on peut projeter les points de l’espace à p dimensions sur un plan (à deux dimensions). Il faut
cependant choisir judicieusement le plan de projection pour que les distorsions par rapport à l’espace originel
soient minimales.
Table 3.1 – Patrimoine selon la catégorie socioprofessionnelle
Anciens indépendants
non agricoles (AI)
Professions libérales
(PL)
Industriels, artisans
commerçants (IAC)
Cadres supérieurs (CS)
Agriculteurs (AG)
Anciens agriculteurs
(AA)
Anciens salariés (AS)
Professions
intermédiaires (PI)
Employés (EM)
Ouvriers (OU)
Livrets
logement
bons,. . .
(LIV)
Épargne
obligatoires
(assurances)
(ELB)
Placements
Actions
Pierre
Terres
(POA)
(ACT)
(PIE)
(TER)
8,00
6,00
10,00
23,00
44,00
9,00
6,00
8,00
17,00
25,00
35,00
9,00
5,00
9,00
11,00
6,00
9,00
13,00
13,00
14,00
16,00
36,00
40,00
7,00
34,00
23,00
19,00
6,00
5,00
34,00
14,00
16,00
13,00
14,00
13,00
13,00
6,00
25,00
27,00
26,00
27,00
6,00
17,00
22,00
24,00
15,00
14,00
18,00
17,00
18,00
25,00
20,00
11,00
8,00
26,00
27,00
20,00
5,00
8,00
5,00
Soient xi et xj deux éléments de X et d(xi , xj ) la distance de l’un à l’autre dans Rp . En projetant ces
éléments sur un plan, la distance entre les deux projections d(p(xi ), p(xj )) est plus petite que d(xi , xj ), on
se fixera donc comme critère de choix de plan, celui qui maximise la moyenne des carrés des distances entre
les projections.
On peut déterminer un plan par deux droites D1 et D2 orthogonales entre elles. De part la relation de
Pythagore, la distance au carré entre deux points projetés sur ce plan est égal à la somme des deux distances
au carré des projections des points sur les deux droites : d2 (p(xi ), p(xj )) = d2 (αi , αj ) + d2 (βi , βj ) (avec αk
et βk les projetés de xk (1 ≤ k ≤ n) sur D1 et D2 respectivement).
Le plan minimisant la moyenne des carrés des distances entre les projections, appelé plan principal peut
donc être déterminé itérativement. On commence par chercher la droite D1 maximisant la moyennes des
d2 (αi , αj ), puis une droite D2 , orthogonale à D1 maximisant la moyenne des d2 (βi , βj ). On peut alors
continuer le processus et trouver p droites orthogonales entre elles formant une nouvelle base de Rp , appelés
axe principaux du nuage.
La meilleure représentation des données en q < p dimension est alors la projection de l’ensemble X sur les
q premiers axes principaux. Ceci est la méthode de l’analyse en composantes principale : remplacer la base
canonique de Rp par une base formé des axes principaux, représentant mieux les données (pensez aux axes
“aptitudes” et “attitude” du début du chapitre), et permettre ainsi de réduire l’espace de représentation aux
q axes les plus représentatifs.
L’analyse en composantes principales est une méthode factorielle, car elle réduit le nombre de caractères,
non pas en éliminant tel ou tel variable jugée non pertinente, mais en construisant de nouveaux axes, plus
pertinents.
18
3.3
3.3.1
Reformulation des données
Matrice de données
Les n individus xi étant décrits par p variables (xi = (x1i , . . . , xpi )), on peut, par abus de notation, noter X
la matrice à n lignes et p colonnes telle l’élément à la ligne i et colonne j soit xji . Si X représente l’espace
des individus, t X (la matrice transposée de X) représente l’espace des caractères, chaque caractère étant
représenté par les n individus qu’il décrit. On note alors xj (1 ≤ j ≤ p) la ligne j de t X qui décrit le caractère
j.
Le centre de gravité du nuage g = (x̄1 , . . . , x̄p ) est un individu, la plupart du temps fictif, décrit par les
moyennes respectives des différents caractères.
Dans l’exemple de la table 3.1, le centre de gravité du nuage vaut par exemple g
(13.2, 11.6, 15.6, 20.1, 28.1, 11.4)
=
On dit qu’une variable est centrée si sa moyenne est nulle. Centrer des variables revient à déplacer le centre
du repère vers g et donc à retirer sa moyenne à chaque caractère xi − g.
On considérera par la suite que toute les variables sont centrées, ce qui simplifie grandement les notations
matricielles.
3.3.2
Matrices de description
On appelle matrice de variance la matrice carrée V contenant à la ligne i et la ligne j la covariance entre la
variable i et la variable j. Cette matrice est symétrique et sa diagonale contient les variances des différentes
variables. Cette matrice peut être calculée par la formule :

s21




V =



...
..
.
s1j
s2i
...
sij
..
.
s1p
..
.
sip
..
.
s2p









Matrice de corrélation R : matrice carrée telle que r(xi , xj ) soit sur la ligne i et la colonne j :





R=




1
..








r(xi , xj )
.
1
..
.
1
La matrice de corrélation possède une diagonale de 1 puisqu’il n’y a pas plus corrélé qu’une variable avec
elle-même. La matrice de corrélation de la table 3.1 est présentée dans la table 3.2. On peut déjà remarquer
que la variable représentant les livrets (LIV) est très fortement corrélée avec la variable représentant l’épargne
obligatoire, alors que la pierre (PIE) ne l’est que très peu avec les placements (POA).
19
Table 3.2 – Matrice de corrélation de la table des étudiants.
LIV
ELB
POA
ACT
PIE
TER
3.3.3
1
0.9127151
0.6798236
-0.6262121
-0.5604978
-0.1230438
LIV
1
0.7027894
-0.6785415
-0.7667056
0.1016693
ELB
1
-0.4475890
-0.5806489
-0.1580415
POA
1
0.3698211
-0.5950052
ACT
1
-0.2779655
PIE
1
TER
Réduction des données
Le choix de la distance à utiliser est primordiale dans toute analyse de données, car elle détermine les résultats
obtenus. Un mauvais choix de métrique conduit le plus souvent à de mauvais résultats.
Lorsque le repère utilisé est orthonormé, on est tenté d’utiliser une distance euclidienne classique et dans ce
cas la distance (ici entre deux individus) est :
X
d2 (xi , xj ) =
(xki − xkj )2 .
1≤k≤p
Si ce choix est adapté lorsque toutes les variables ont même unité, il peut être préjudiciable dans notre
cas, puisque chaque variable se définit par rapport à sont unité propre (un homme pouvant être défini par
son âge, son salaire et bien sur la grosseur de sa voiture). Utiliser une métrique euclidienne revient alors à
mélanger les torchons et les serviettes.
Il est donc indispensable de trouver une métrique qui permette de comparer des individus décrits par des
variables hétérogènes.
Pour éviter cet écueil, nos données (supposées centrées) sont réduites. C’est à dire que chaque variable (les
xj ) est divisée par son écart-type. Ceci a pour but qu’une fois réduites, l’écart-type de chaque variable est
égal à 1.
Le principal avantage de cette métrique est que la distance entre individus ne dépend plus des unités choisies
j
puisque les nombres xsj sont sans unités. De plus, elle accorde la même importance à chaque caractère quelque
soit sa dispersion. Ne pas l’utiliser revient à accorder plus d’importance aux caractères de forte dispersion
qu’à ceux de faible dispersion.
Les écarts-types des différentes variables de la table 3.1 sont représentés dans le tableau ci-après :
LIV
6.545567
ELB
4.087923
POA
4.115013
ACT
12.041133
PIE
7.607745
TER
10.319345
Remarque 5 Lorsque des données sont centrées et réduites, les matrices V et R sont identiques.
Dans tout ce qui suivra, on supposera nos données centrées et réduites.
3.4
Recherche de sous-espaces optimaux
L’idée de l’ACP (aussi appelée transformée de Karhunen-Loeve ou de Hotelling) est de trouver une projection
des variables de manière à réduire la redondance de l’information, c’est à dire en annulant la corrélation entre
les composantes.
20
Soit Rx , la matrice de corrélation des données de l’ensemble X. On cherche une transformation linéaire
des données ci = E xi où les xi sont centrés et réduits telle que Rc , la matrice de corrélation des données
transformées C soit diagonale :


λ1 · · · O


Rc =  0 . . . 0 
0 · · · λp
= E Rx t E.
Les données ainsi transformées sont centrées. Justifier la dernière ligne du calcul.
1
x i
x i
2
c i
1
c i
u
1
u
2
2
x i
Figure 3.1 – facteurs principaux, composantes principales
Sachant que Rx , comme toute matrice de covariance, est symétrique et semi-définie positive (ie ses valeurs
propres (u1 , · · · , up ) sont positives ou nulles). Et sachant que les vecteurs propres d’une matrice symétrique
semi-définie positive forment une base orthonormée, on démontre que la matrice de projection E est constituée des vecteurs propres de Rx rangés par ordre décroissant de ses valeurs propres λ1 ≥ λ2 ≥ . . . ≥ λp .
Remarque 6
? Puisque E est orthonormale, alors t E = E −1 , et la transformation est inversible : xi = t E ci .
? On appelle ie axe principal, la droite engendrée par le vecteur propre ui . Les ui sont les facteur
principaux
? Pour l’axe principal k (1 ≤ k ≤ p), on note p(xi ) la projection de xi sur cet axe (égal à la ie ligne
P
du vecteur colonne X uk ), alors i ||p(xi )||2 = λk . En d’autres mots, les valeurs propres représentent
les variances des données projetées (puisque les données C sont centrées).
3.5
Inertie
On appelle inertie du nuage la moyenne des carrées des distances des points du nuage à son centre de gravité
g. Les données étant centrée, l’inertie I du nuage est alors :
X
X
I=
||xi ||2 =
λk .
1≤i≤n
k
L’inertie est un paramètre de dispersion du nuage, puisqu’elle mesure l’éloignement relatif des points par
rapport à son centre de gravité. C’est une variance non normée (on ne divise pas par le nombre de points).
L’inertie par rapport à un point différent du centre de gravité est donc toujours supérieure à l’inertie du
nuage. De plus, on a que l’inertie totale du nuage est égale à la somme des inerties des axes principaux (cf.
21
||p(xi )||2 = λk ), ie l’inertie associée à l’axe principal j est égale à λj . De plus, comme la somme des
valeurs propres d’une matrice est égale à sa trace, on a également que I = trace(V ). Nos données étant
réduites, les éléments diagonaux de V sont tous égaux à 1 et donc trace(V ) = p.
P
i
Chaque axe principal explique donc une part d’inertie étant égale à son inertie divisée par l’inertie totale :
λi
i
j
p . La part d’inertie expliquée par le plan formé par les facteurs u et u est égale à l’inertie des projetés sur
ce plan divisé par l’inertie totale. Les ui formant une base orthogonale de Rp , cette inertie expliquée vaut :
λi +λj
p .
3.6
Description du nuage des individus
On rappelle que les facteurs principaux u1 , u2 , . . ., up sont les vecteurs propres de la matrice V associés aux
valeurs propres λ1 ≥ λ2 ≥ · · · ≥ λp . Comme les ui forment une base orthonormée de Rp , ils tiennent lieu de
nouveaux axes.
Pour cette nouvelle base, les coordonnées des individus sont alors égales aux projections d’iceux sur les axes
principaux. La projection des points sur l’axe principal j étant égal au vecteur colonne Xuj (la projection
du ième points sur l’axe principal j est égal à la ième coordonnée de Xuj ).
On appelle alors composantes principales les vecteurs colonnes cj = Xuj pour tout 1 ≤ j ≤ p (cf. figure 3.1).
La qualité de la représentation de X sur ces axes pourra alors être étudié du point de vue local ou global.
Le point de vue global : on évalue la qualité de l’approximation du nuage par un plan ou un axe. Cette
qualité sera d’autant meilleure que l’inertie de ce sous-espace est forte (ce qui signifie que les points seront
globalement proche de leurs projetés). L’inertie totale du nuage valant trace(V ) = p, on introduit les parts
d’inertie expliquée :
λ
? par l’axe uj qui vaut pj ,
λ +λ
? par le plan formé par les facteurs ui et uj et qui vaut i p j ,.
En ne retenant qu’un nombre q < p de vecteurs propres (ie on met à 0 les vecteurs propres et donc les valeurs
propres comprises entre q + 1 et p), on projette sur un sous-espace, et on réalise ainsi de la réduction de
dimensions. Les dimensions retenues sont celles qui maximisent la dispersion des données (puisque ce sont
celles qui ont le plus grandes valeurs propres) :
 
 
 
x1i
c1i
x̂1i
. . .
. . .
. . .
 
 
 
 
 q
 
(3.1)
. . . ⇒  ci  ⇒ . . .
 
 
 
. . .
0
. . .
xpi
...
x̂pi
On montre que l’erreur de reconstruction entre xi et x̂i s’écrit
p
X
||xji − x̂ji ||2 =
j=1
p
X
λj .
j=q+1
Pour expliquer la part relative de l’erreur on divise le résultat précédent par p (ie l’inertie totale).
Le point de vue local : plus le point xi est proche du sous-espace H (le plus souvent un axe ou un
plan) sur lequel on le projette, plus pertinente est sa représentation. On a donc coutume de mesurer cette
||projection de xi sur H||2
proximité par le cosinus de l’angle de xi et de H : cos2 θ =
(cette formule peut
||xi ||2
22
être aisément expliquée par la figure 3.2 et le fait que le cosinus d’un angle dans un triangle rectangle est
égal au côté adjacent de l’angle divisé par l’hypoténuse).
Le cosinus carré de l’angle entre xi et le facteur uj est donc égal à cos2 θ =
et le cosinus carré de l’angle
2
|cji |2 +|ck
i|
||xi ||2 .
entre xi et le plan uj ⊕ uk est égal à cos2 θ =
x
g
|cji |2
||xi ||2
i
q
cj
cj
i
Figure 3.2 – Angle de projection.
Cercle de corrélation : On peut décrire les composantes principales (les nouvelles variables) par les
corrélations qu’elles entretiennent avec les anciennes variables.
La corrélation entre une composante principale cj et une variable initiale xk est égale à
r(xk , cj ) =
Après quelques calculs, on obtient r(cj , xk ) =
cov(xk , cj )
.
s(cj )s(xk )
p
λj (uj )k où (uj )k est la kème composante du vecteur uj .
0
0
Comme on a toujours r2 (xj , ck ) + r2 (xj , ck ) ≤ 1. Pour s’en convaincre, remarquez que ck et ck sont
orthogonaux, et donc une corrélation linéaire de 1 avec un axe entraîne une corrélation linéaire de 0 avec
l’autre. De façon plus formelle, le résultat vient du fait que r(xj , ck ) est le cosinus entre les axes définis par
0
xj et xk ) en projetant les xj sur le plan principal (c1 , c2 ) (ou plus généralement sur le plan (ck , ck )), on
obtient des points à l’intérieur d’un cercle de rayon 1 (cf. figure 3.3).
c2
xj
j
r(x ,c2 )
j
r(x ,c1)
c1
Figure 3.3 – Cercle des corrélations
Ce cercle permet de voir d’un seul coup d’oeil les corrélations linéaires de toutes les variables initiales avec
deux composantes principales particulières.
23
Chapitre 4
Décision bayésienne
4.1
Introduction et motivations
Considérons deux phénomènes « mesurés » par deux réels x et y. Lorsqu’on cherche à étudier des liens
entre les deux phénomènes il existe, en dehors de la théorie des probabilités, deux possibilités : soit un lien
déterministe y = f (x), soit aucun lien. Le calcul des probabilités permet d’introduire une infinité de « liens
intermédiaires » : les deux phénomènes peuvent être plus au moins liés. Lorsqu’on « observe » x, on dispose
sur y d’une certaine information, sans pour autant pouvoir le calculer explicitement. Cette information est
modélisée par une « mesure de probabilité » notée P Y |x : pour tout A ⊂ R, P Y |x [A] est un nombre dans [0, 1]
donnant la « probabilité » pour que y soit dans A. y est ainsi considéré comme réalisation d’une variable
aléatoire Y et P Y |x est la loi de Y conditionnelle à x. Si on veut faire des raisonnements généraux, valables
pour tout x, on est amené à le considérer également comme une réalisation d’une variable aléatoire X dont
le comportement est décrit par la loi de probabilité PX . On arrive ainsi à la loi de probabilité du couple
(X, Y ), donnée par PX et la famille P Y |x , x ∈ R, modélisant les « liens stochastiques » entre les deux
phénomènes.
D’une façon générale X contient l’information que l’on recherche mais n’est pas directement observable (on
dit généralement qu’elle est « cachée »). On observe, ou mesure, Y = y et on cherche à retrouver, ou à
« estimer », la réalisation cachée x. Considérons, à titre d’exemple, le problème suivant : on cherche à savoir,
à partir d’une image satellite, si un certain pixel de l’image représente de la forêt ou de l’eau. X prend
ainsi ses valeurs dans un ensemble de deux éléments Ω = {ω1 = "eau", ω2 = "forêt"} et l’observation Y = y
est donnée par un nombre représentant un niveau de gris. La loi de X, appelée « a priori », est donc une
probabilité sur Ω et modélise, de façon générale, la connaissance que l’on a sur le phénomène modélisé par
X « a priori », i.e. sans aucune mesure. Si on sait, dans notre exemple, que l’image a été prise dans une
région où il y a trois fois plus d’eau que de forêt, on posera PX (ω1 ) = 0.75 et PX (ω2 ) = 0.25. Les deux lois
conditionnelles P Y |ω1 et P Y |ω2 modélisent plusieurs phénomènes différents. Les classes « eau » et « forêt »
ne produisent pas une mesure unique (présence de vagues, « variabilité naturelle » de la forêt. . . ), d’où une
variation stochastique de la mesure Y = y. À cette variation peuvent s’ajouter divers « bruits », dus à la
transmission, l’acquisition. . .
L’étape suivante, après la définition de la loi du couple PX,Y modélisant les interactions stochastiques entre
les « mesures » décrivant les phénomènes, est la définition d’une règle de calcul de la réalisation cachée
X = x à partir de la réalisation observée Y = y. Une fois retenue, la règle, ou « stratégie », y = s(x)
est déterministe. Mais, contrairement au cas de lien déterministe entre y et x, on dispose généralement de
plusieurs choix possibles. Le choix est opéré à partir d’un « critère de qualité », ce dernier étant fonction
des résultats que l’on attend de s. Si on reprend l’exemple ci-dessus on peut considérer comme critère de
24
qualité la « probabilité de se tromper » qui peut, pour s donnée, être calculée à partir de PX,Y . La stratégie
s qui optimise ce critère est la stratégie bayésienne avec la fonction de perte « 0 − 1 ». Si pour une raison
quelconque on considère que les deux types d’erreurs « décider qu’il y a de l’eau alors qu’il y a de la forêt » et
« décider qu’il y a de la forêt alors qu’il y a de l’eau » ne sont pas de gravité égale, on modifie la fonction de
perte et on arrive à une stratégie s différente de la précédente. Dans la pratique le calcul explicite optimisant
un critère donné est parfois impossible, on est alors amené à rechercher une stratégie s « sous-optimale ».
Finalement, lorsque PX,Y est donnée, on choisit un critère correspondant à la nature du problème que l’on
veut résoudre et on cherche s optimisant ce critère.
En fait, PX,Y est rarement connue avec précision dans la pratique et on doit, dans une phase préalable
d’« estimation », rechercher des paramètres dont la connaissance est suffisante pour la détermination de s.
Lorsqu’on n’a aucune connaissance sur PX,Y , on est amené à faire de l’estimation « non paramétrique ».
Mais le cas le plus fréquent est celui où on a une idée sur la forme générale de PX,Y et on considère qu’elle
fait partie d’une famille PX,Y,θ , θ ∈ Θ. On cherche alors à estimer θ. En reprenant notre exemple, supposons
que les lois de Y conditionnelles à ω1 et ω2 sont gaussiennes, notons f1 et f2 les densités correspondantes.
Nous sommes dans le cas « paramétrique », θ a six composantes :
? les lois « a priori » : π(k) = PX=ωk , k ∈ Ω ;
? les moyennes et écarts-type définissant f1 et f2 : θ k = {µk , σk }, k ∈ Ω.
Dans les cas « paramétrique » et « non paramétrique », on distingue deux sous-cas :
1. estimation avec « échantillon d’apprentissage » (supervisée) et
2. estimation « sans échantillon d’apprentissage » (non supervisée).
Le premier est celui où on dispose d’un échantillon x01 , x02 , . . . , x0M de réalisations de X. Les réalisations de
Y étant toujours observables, on estime alors les paramètres nécessaires à la détermination de s à partir
0
). Dans notre exemple simple le cas « avec échantillon d’apprentissage » est celui
de (x01 , y10 ), . . . , (x0N , yN
où on dispose dans l’image de M endroits où la nature du terrain ("eau" ou "forêt") est connue. Notons
x = {x1 , . . . , xM } l’échantillon « observé », x1 = {x1 , . . . , xP } et x2 = {x1 , . . . , xQ } les sous-échantillons
P
"eau" et "forêt" (P + Q = M ). Les lois a priori π(1) et π(2) peuvent être estimées par les fréquences M
et
Q
M , et les paramètres θ k , k ∈ Ω des gaussiennes par les moyennes et écarts-type empiriques calculés à partir
des deux sous-échantillons x1 et x2 .
Le deuxième est celui où les paramètres nécessaires à la détermination de s doivent être estimés à partir de
l’échantillon y de Y , dont la loi est un mélange de lois gaussiennes : on arrive au problème statistique général
de reconnaissance de mélange. Le cas le plus général, mais aussi le plus difficile à traiter, est celui de
l’estimation non paramétrique sans échantillon d’apprentissage.
Finalement la démarche générale, que l’on retrouve dans le traitement de nombreux problèmes (en traitement
de signal, économie, médecine, . . . ) est la suivante :
? on définit la forme générale de PX,Y ;
? on définit un critère de qualité de l’« estimation » de X = x (caché) à partir de Y = y (observé).
? on recherche une « stratégie » s optimisant le critère choisi.
? on estime les paramètres nécessaires à la mise en œuvre de s.
La démarche générale présentée ci-dessus conduit à plusieurs modélisations stochastiques qui différent selon
les hypothèses de dépendance que l’on considère pour modéliser les liens stochastiques entre les données
observées et les données cachées. Le cours commence par introduire le principe de la stratégie bayésienne de
la décision (chapitre 1). Puis, nous continuons en posant le problème de l’estimation d’un mélange fini dans
le cas aveugle, c’est-à-dire celui où les échantillons sont supposés indépendants les uns des autres (variables
i.i.d.). Nous détaillons l’algorithme itératif EM (Expectation-Maximization) et les formules de ré-estimation
dans le cas gaussien (chapitre 2).
25
4.2
Position du problème
Selon le schéma général, on observe une réalisation d’une variable aléatoire Y (une valeur y de R) et on
souhaite « estimer » la valeur cachée k du paramètre. L’ensemble des paramètres Ω sera supposé fini, Ω =
{1, . . . , K}, ses éléments appelés « classes » et tout estimateur « stratégie de classification » 1 .
Supposons maintenant que nous nous trouvons devant un problème de classification des données et que nous
connaissons la fréquence d’apparition des classes. Par exemple, on classe les individus en classe « homme »
et « femme », uniquement à partir de leur poids. On sait a priori (ce qui signifie ici « avant l’observation »)
que la population que nous devons classer contient deux tiers d’hommes et un tiers de femmes. Une telle
connaissance a priori peut être modélisée par une probabilité (dite a priori) sur Ω. Cette probabilité peut
alors être considérée comme la loi d’une variable aléatoire X et les p (. |X = k ) apparaissent comme les lois
de Y conditionnelles à X.
Finalement, la loi a priori p (X = k) = p (k) = π(k) sur Ω et les lois conditionnelles p (Y = y |X = k ) = fk (y)
sur R définissent une probabilité p (Y = y, X = k) = π(k) fk (y) sur R×Ω 2 , dite loi du couple ou loi conjointe.
La loi p (Y = y) est appelée densité mélange ou, plus simplement, mélange
p (Y = y) =
K
X
p (Y = y, X = k) =
K
X
π(k) fk (y).
(4.1)
k=1
k=1
La probabilité conditionnelle p (X = k |Y = y ) sur Ω, dite loi a posteriori s’écrit
p (X = k |Y = y ) =
p (Y = y, X = k)
π(k) fk (y)
.
= K
p (Y = y)
X
π(i) fi (y)
(4.2)
i=1
Intuitivement, la différence entre la probabilité a priori p (X = k) et la probabilité a posteriori
p (X = k |Y = y ) sur Ω illustre l’apport de l’information (sur l’identité de la classe non observable) contenue
dans l’observation (a priori signifie « avant » l’observation, et a posteriori signifie « après » l’observation).
On retrouve le fait que si les variables sont indépendantes, l’observation de l’une d’entre elles n’apporte
aucune connaissance sur le comportement de l’autre et donc ces deux probabilités sont égales.
4.3
Stratégie bayésienne
Considérons une probabilité sur Ω × R qui est une loi d’un couple de variables aléatoires (X, Y ). Ainsi
(x, y) ∈ Ω × R étant une réalisation de (X, Y ), le problème de la classification devient celui de l’estimation
de la réalisation inobservable de la variable X à partir de la variable observable Y .
Considérons une stratégie de classification ŝ : R −→ Ω. Pour chaque réalisation (x, y) = (X, Y ), ŝ peut
donner la bonne réponse, i.e. ŝ(y) = x , ou se tromper, i.e. ŝ(y) 6= x. Supposons que les différentes erreurs
ne sont pas de gravité équivalente. On le modélise en définissant une application L : Ω × Ω −→ R+ dite
fonction de perte :
(
0
si i = j,
L(i, j) =
(4.3)
λi,j sinon.
Le nombre réel λi,j modélise la gravité de l’erreur « on a choisi la classe i alors que la vraie classe est
j ». Insistons sur le fait que la « perte » modélisée par L ne fait pas partie de la modélisation probabiliste
1. Par abus de notation, et lorsque cela ne peut engendrer de confusion, nous écrirons p (x) à la place de p (X = x), x ∈ Ω
et p (y) à la place de p (Y ∈ dy), y ∈ R.
2. par rapport à la mesure δ ⊗ ν, où δ est la mesure de comptage et ν la mesure de Lebesgue sur R.
26
considérée. Par ailleurs, à une erreur donnée, deux utilisateurs peuvent avoir des intérêts différents, et donc
les pertes qu’ils associent à une même erreur peuvent être différentes.
À stratégie ŝ et fonction de perte L données, comment mesurer la qualité de ŝ ? Supposons que l’on a N
observations indépendantes y = {y1 , . . . , yN }, chacune correspondant à une classe inconnue, à classer. En
notant x = {x1 , . . . , xN } les classes correspondantes, la perte globale est
L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN ) .
On cherche à minimiser cette perte globale, ce qui revient à minimiser son quotient par N . Par la loi des
grands nombres, ce dernier tend vers :
L (ŝ(y1 ), x1 ) + . . . + L (ŝ(yN ), xN )
−→ E [L (ŝ(Y ), X)] .
N →+∞
N
On constate qu’à « long terme », la qualité d’une stratégie ŝ est mesurée par E [L (ŝ(Y ), X)], qui est appelée
« perte moyenne ». La stratégie bayésienne ŝB est celle parmi toutes les stratégies pour laquelle la perte
moyenne est minimale :
E [L (ŝB (Y ), X)] = min E [L (ŝ(Y ), X)].
(4.4)
ŝ
La qualité de ŝB est ainsi appréhendée via la loi des grands nombres et on ne peut rien dire pour une seule
observation (ou même un petit nombre).
Montrons que la stratégie bayésienne associée à la fonction de perte définie par l’équation (4.3) est
"
#
K
K
X
X
[ŝB (y) = k] ⇐⇒ ∀j ∈ Ω,
λk,i p (X = i |y ) ≤
λj,i p (X = i |y ) ,
i=1
i=1
soit encore
ŝB (y) = arg min
j∈Ω
K
X
λj,i p (X = i |y ).
(4.5)
i=1
Démonstration : En appliquant la formule de Fubini 3 à E [L (ŝ(Y ), X)], on peut écrire :




E [L (ŝ(Y ), X)] = E E [ L (ŝ(Y ), X)| Y ] .
|
{z
}
φ(y)
4
Nous obtenons :
φ(y) =
K
X
L (ŝ(y), i) p (X = i |y ).
i=1
PK
L’élément ŝ(y) = k, qui minimise φ(y), minimise la quantité i=1 λj,i p (X = i |y ), ce qui donne (4.5). Notons
R
en effet que ŝB ainsi déterminée minimise bien E [L (ŝ(Y ), X)] car on a E [φ(Y )] = R φ(y) p (Y = y) dy, et
donc la minimisation de φ en tout point minimise bien l’intégrale (car p(Y = y) > 0).
Remarque 1 : Pour calculer la perte moyenne ξ (qui est minimale pour la stratégie bayésienne) associée
à la stratégie ŝ et à la fonction de perte L, on utilise toujours le résultat de la note 3 (en conditionnant
par X) et celui de la note 4 :
Z
ξ = E [L (ŝ(Y ), X)] =
φ(y) p (Y = y) dy =
R
K Z
X
i=1
π(i)fi (y) L (ŝ(y), i) dy.
R
Nous disposons ainsi de la stratégie qui assure, à long terme, d’avoir une perte minimale et, de plus, il est
possible de calculer sa valeur (cf. exemple ci-après).
3. Pour deux variables aléatoires réelles U , V et une fonction quelconque Ψ, la formule de Fubini est E [Ψ(U, V )] =
E [E [ Ψ(U, V )| U ]] = E [E [ Ψ(U, V )| V ]].
Z
h(u) p (u |v ) du.
4. En utilisant la version discrète du résultat classique suivant : E [ h(U )| V = v] =
R
27
Remarque 2 : Ainsi la stratégie bayésienne dépend des λi,j que l’on choisit de façon subjective. Si on
souhaite détecter une classe donnée avec une précision , on peut calculer les coefficients λi,j de façon
à ce que la stratégie bayésienne correspondante vérifie cette condition. Ce type de possibilités montre la
puissance de la modélisation en question.
Exemple : Soit Ω = {1, . . . , K} et la fonction de perte L0−1 définie par :
L0−1 (i, j) =
(
0
1
si i = j
sinon
(4.6)
L0−1 (ŝ(y), k) désigne alors la valeur, au point (k, y), de la fonction indicatrice du sous-ensemble de Ω × R
sur lequel ŝ se trompe et donc E [L0−1 (ŝ(Y ), X)] représente la probabilité pour que ŝ se trompe. Ainsi dans
ce cas la stratégie bayésienne ŝB définie par
ŝB (y) = i si ∀j ∈ Ω\ {i} ,
p (X = i |y ) ≥ p (X = j |y ) ,
(4.7)
qui est un cas particulier de (4.5), est celle pour laquelle la probabilité de se tromper est minimale 5 . Sachant
qu’en vertu de la loi des grands nombres la probabilité d’un événement peut être vue comme la fréquence de
son apparition lorsque le phénomène se reproduit un grand nombre de fois de façon indépendante, la stratégie
définie ci-dessus est celle qui produira, lorsqu’on l’utilisera dans un grand nombre de cas indépendants, la
plus petite proportion d’erreurs.
Ainsi ŝB (y) consiste, dans ce cas, à associer à chaque y ∈ R l’élément de Ω dont la probabilité a posteriori,
i.e. conditionnelle à Y = y, est maximale. Cette règle de décision est aussi appelée celle du « maximum de
vraisemblance a posteriori ». Notons que les probabilités a posteriori de (4.7) peuvent être remplacées par
les « fonctions discriminantes » π(i)fi (y), et la stratégie ŝB (y) s’écrire
ŝB (y) = i si ∀j ∈ Ω\ {i} ,
π(i)fi (y) ≥ π(j)fj (y)
(4.8)
Cette dernière écriture est intéressante pour son interprétation graphique (cf. question 1 de la section 4.4).
La perte minimale définie dans la remarque précédente s’écrit dans le cas de la fonction de perte L0−1
Z
ξ=
min π(i)fi (y) dy.
R i∈Ω
(4.9)
Ce résultat sera interprété dans la question 2 de la section 4.4.
Remarque 3 : Les notions présentées dans le cadre très simple où (X, Y ) est à valeurs dans Ω × R,
avec Ω fini, sont très générales et restent valables dans le cas où X et Y sont des processus stochastiques
complexes. De façon générale, il s’agit alors d’estimer tout - ou une partie - des variables composant X à
partir de toutes -où une partie - des variables composant Y . Le même problème peut alors, pour des raisons
généralement historiques, prendre diverses appellations comme « filtrage », « prédiction », « classification »,
« estimation », . . .
Remarque 4 : Pour faciliter la lecture, nous avons pour l’instant considéré le cas scalaire, c’est-à-dire y ∈ R
(D = 1). Les résultats énoncés s’étendent sans difficulté au cas vectoriel où les observations sont vectorielles,
c’est-à-dire y ∈ RD (D > 1).
5. On le démontre en exprimant l’eq. (4.5) dans ce cas particulier. Dans le cas de deux classe (K = 2), nous sélectionnons la classe 1 si λ1,1 p (X = 1 |y ) + λ1,2 p (X = 2 |y ) = p (X = 2 |y ) est plus petit que λ2,1 p (X = 1 |y ) + λ2,2 p (X = 2 |y ) =
p (X = 1 |y ), d’où le résultat.
28
Figure 4.1 – Dessin de deux densités gaussiennes de paramètres θ1 = {100, 6} et θ2 = {110, 3}.
4.4
Exemple : cas gaussien
L’expression d’un d.d.p. gaussienne θk = {µk , σk } est donnée par :
"
2 #
1
1 y − µk
√
fk (y) =
exp −
.
2
σk
σk 2π
(4.10)
À titre d’exemple, la figure 4.1 montre deux gaussiennes qui serviront pour les exercices suivants.
Questions 1. Considérons le cas de deux gaussiennes de paramètres θ1 = {0, σ} et θ2 = {a, σ/2} (a réel) et
de proportions π(1) = 1/3 et π(2) = 2/3. Calculer de manière analytique les seuils de décision bayésienne,
c’est-à-dire les Υ valeurs {τ1 , . . . , τΥ } qui séparent les deux classes sur R. Calculer les valeurs numériques
pour les lois dont les valeurs des paramètres sont données dans la figure 4.1.
Réponse.
1
1
√
exp −
2
3 σ 2π
1
exp
2
2 y
σ
"
=
1
4
√
exp −
2
3 σ 2π
=
4
3y 2 − 8ay + 4a2
=
4σ 2 ln 2
3y 2 − 8ay + 4a2 − 4σ 2 ln 2
=
0.
"
2(y − a)
σ
2
−
2
y
σ
y−a
2 #
σ
2
#
Le discriminant ∆ = 64a2 − 12 (4a2 − 4σ 2 ln 2) = 16 a2 + 3σ 2 ln 2 est toujours positif et les racines réelles (c’est à
dire les seuils de décision) sont données par τ1 =
√
8a+ ∆
6
et τ2 =
√
8a− ∆
.
6
En utilisant les valeurs numériques de la figure 4.1, nous obtenons τ1 = 104.5 et τ2 = 122.1, ce que l’on peut vérifier
sur le graphe (b) de la figure 4.2. Ainsi, les valeurs de y comprises dans ]τ1 ; τ2 [ sont associées à la classe 2, alors que
les valeurs en dehors de cet intervalle sont associées à la classe 1. Nous avons autant de chance de commettre une
erreur ou de ne pas en commettre en décidant, au niveau des seuils (y = τ1 et y = τ2 ), de classer la donnée dans l’une
ou l’autre classe.
La graphe (a) de la figure 4.2 représente le mélange des deux classes, cf. eq. (4.1). La courbe cyan du graphe (b)
représente, en chaque valeur y, la plus forte valeur π(k)fk (y) pour k ∈ Ω, alors que la courbe magenta représente le
minimum.
Questions 2. Dans le cas de la fonction de perte L0−1 définie par l’éq. (4.6), calculer de manière analytique
29
(a)
(b)
Figure 4.2 – (a) Mélange des deux lois gaussiennes de la figure 4.1 dans des proportions données par
π(1) = 1/3 et π(2) = 2/3. (b) En couleur cyan (resp. magenta) apparaît la courbe de « π(k) fk (.) »
maximum (resp. minimum).
la perte moyenne ξ, cf. eq. (4.9), en utilisant les paramètres de la question 1. Calculer les valeurs numériques
pour les valeurs des paramètres données dans la figure 4.1.
Réponse. La courbe magenta modélise la probabilité de se tromper et la courbe la cyan la probabilité de ne pas
commettre d’erreur. La perte moyenne est donc représentée par la surface sous la courbe magenta, et est calculée en
intégrant cette fonction.
Calcul :
Z
τ1
Z
τ2
Z
−∞
π(2)f2 (y) dy .
τ1
{z
|
}
A
+∞
π(1)f1 (y) dy +
π(2)f2 (y) dy +
ξ=
τ2
|
{z
}
B
|
{z
C
Nous obtenons pour le terme A :
A
Z
τ1
y−a 2
dy
σ
−∞
" √
2 #
Z τ1
2 (y − a)
2
2
√ √
exp −
dy.
σ
3σ 2 π −∞
4
√
3 σ 2π
=
=
exp −
1
2
2
√
En posant z =
√
2
2
(y − a) (ainsi dz =
dy), nous avons
σ
σ
2
En notant erf(x) = √
π
Z
Z
1 2
√
3 π
A=
τ1 −a
2σ
exp −z 2 dz.
−∞
x
exp −z
2
dz avec limx→∞ erf (x) = 1, nous avons
0
A=
1
3
√
1 + erf
2
(τ1 − a)
σ
.
Par un calcul similaire, nous obtenons pour B et C :
B
=
C
=
τ2
τ1
√
√
erf
− erf
σ 2
σ 2
√
1
2
1 − erf
(τ2 − a)
.
3
σ
1
6
30
,
}
(a)
(b)
(c)
(d)
Figure 4.3 – Décision bayésienne sur une image bruitée avec paramètres connus. (a) image originale (π(2) '
0.33 et π(1) ' 0.67). (b) image bruitée avec les paramètres donnés dans le texte et (c) son histogramme
normalisé, à rapprocher du mélange des deux lois gaussiennes de la figure 4.2(a). (d) image classée obtenue
par décision bayésienne.
En utilisant les valeurs numériques, nous obtenons A = 0.023, B = 0.075 et C = 1.71 10−5 , ce qui donne finalement
une perte moyenne de ξ = 0.098.
Pour illustrer ce résultat, nous avons conduit l’expérience suivante, cf. figure 4.3. Nous avons ajouté un bruit gaussien
à chacune des classes de l’image de cible (a) dont la classe noire représente environ 2/3 des pixels de l’image, et la
classe blanche 1/3. Nous avons procédé de la manière suivante. Nous avons bruité chacun des pixels noirs avec la
loi gaussienne f2 de paramètres {110, 3}. Les pixels de la classe blanche ont quand à eux été bruités avec la loi f1
de paramètres {100, 6}. L’image bruitée et son histogramme sont présentés dans les figures (b) et (c). Nous avons
alors appliqué la décision bayésienne avec l’ensemble des paramètres de la simulation, et obtenu l’image classée (d).
L’erreur de classification obtenue en comptant le nombre de pixels différents entre (a) et (d) s’élève à 9.76%. Ce
résultat est une bonne approximation du calcul théorique (rappel : ξ = 0.098), ce qui est conforme au principe de la
loi des grands nombres car l’image a pour dimensions 128 × 128 = 16384 pixels.
Il est remarquable de constater que le pourcentage d’erreur dans la classe noire est de α1 = 3.41% (ce qui correspond
bien à une erreur de 2.30% par rapport au total des pixels, à rapprocher de A + C), alors que celui dans la classe
blanche est de α2 = 22.77% (ce qui correspond bien à une erreur de 7.46% par rapport au total des pixels, à rapprocher
de B). Ainsi les erreurs commises entres les deux classes ne sont pas les mêmes : une classe est bien plus erronée que
la seconde.
31
Téléchargement