Reconnaissance de Forme Statistique

publicité
Reconnaissance de Forme Statistique
James L. Crowley
Deuxième Année ENSIMAG
Séance 1
Troisième Bimestre 2001/2002
27 mars et 2 avril 2002
Reconnaissance, Probabilité et la Règle de Bayes
Plan de la séance :
Notations ...............................................................................2
Introduction et quelques définitions..................................3
Les Observations.................................................................4
La classification..................................................................5
La probabilité d'un évenement..........................................7
Définition Fréquentielle.......................................................7
Définition Axiomatique. ......................................................7
La probabilité de la valeur d'une variable aléatoire.................8
Exemple : Les statistiques de pixel couleurs......................... 10
Probabilité a posteriori : Le cas de variable discret.............. 12
La Règle de Bayes............................................................ 13
La règle de Bayes avec une ratio d'histogrammes................. 15
La Loi Normale................................................................. 16
Estimations des moments d'une densité................................ 17
La Loi Normale................................................................ 19
Estimation d’un vecteur de variables aléatoires..................... 19
Notes des Cours sur Web :
http://www-prima.imag.fr/Prima/Homepages/jlc/Courses/Courses.html
Sources :
"Statistical Pattern Recognition", K. Fukunaga, Academic Press, 1990.
"Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Notations
→
x
Un vecteur
D
Nombre de dimensions de X
wk
k
K
Mk
M
pk, p(wk)
La classe k
Indice d'une classe
Nombre de classes
Nombre d'exemples de la classe k.
Nombre totale d'exemples de toutes les classes
Probabilité a priori de rencontrer un membre de la classe k.
X,Y
Une observation (un vecteur aléatoire).
P(X )
Probabilité d'une observation X
pk(X)
Probabilité d'une observation X pour la classe wk
→
→
→
→
→
→
→
→
→
pk(X) = p(X | w k)
→
P(X ) =
K
→
∑
k=1
→
qk(X)
→
p(X | w k) p(wk)
→
La probabilité a posteriori de wk étant donnée X
→
qk(X) = P(wk | X ) =
→
p(X | w k ) p(w k)
→
p(X )
→
p(X | w k ) p(w k)
=
K
→
∑ p(X | w k) p(w k)
k=1
1-2
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Introduction et quelques définitions.
La reconnaissance de forme est la science des méthodes de classification de
phénomènes.
Phénomène : tout ce qui est objet d'expérience possible. Tout ce qui se manifeste
par l'intermédiaire des sens. (ref : Critique de la Raison Pure, I. Kant, 1781)
Une observation : une constatation attentive des phénomènes.
Pour des machines, des observations sont fournies par les capteurs.
Forme n. f. : A. Apparence, aspect visible. 1) ... 2) apparence extérieure donnant
à un objet ou à un être sa spécificité.
B. Réalisation particulières et concrète d'un fait général 1) Manière
variable dont une notion, une idée, un événement, une action se
présente.
Les méthodes statistique de la reconnaissance de forme traite les observations sous
forme de vecteur de caractéristiques.
Caractéristiques : (En anglais : Feature) Signes ou ensembles de signes distinctifs.
Une ensemble de propriétés.
{ x 1, x 2 ... xn}.
En notation vectorielle :
 x1 
 x2 
→
X =  ...

 x 
n
La formation des vrais objets physiques est sujette aux influences aléatoires.
Pour les objets d'une classe, wk, les propriétés des objets individuels sont,
les valeurs aléatoires. On peut resume ceci par une somme d'une forme
→
→
"intrinsèque" x plus ces influences aléatoires individuelles, Bi.
→
→
→
X = x + Bi
1-3
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Toutes les techniques étudiées dans ce cours suppose un bruit additif.
→
L'influence aléatoire individuelle, Bi est spécifique à un individuel par rapport de
son classe et indépendant des observations.
En notation vectorielle :
 X1 
X 
X =  ...2 
 X 
n
→
=
 x1 
 x2 
 ... 
 x 
n
 B1 
B 
+  ...2 
 B 
n
Les Observations
Les propriétés sont observées au travers des capteurs.
Ceci donne une observation (un phénomène) sous forme d'une ensemble de
caractéristiques : { Y1, Y 2 ... Yn}.
 Y1 
Y 
Y=  ...2 
 Y 
n
→
→
Les observations sont corrompues par un bruit, Bo.
→
→
→
Y = X + Bo
Le bruit est, par définition, imprévisible. Il est aléatoire.
Donc les caractéristiques observées sont des vecteurs aléatoires.
La corruption des observations par un bruit aléatoire est fondamentale aux capteurs
physiques.
Parce que des caractéristiques sont des vecteurs à N dimensions, nous allons faire
appel aux méthodes de la géométrie des espaces à N dimensions pour construire les
techniques de reconnaissance.
1-4
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Exemple : Le spectre des plantes observées par un satellite.
Une image satellite est composée de pixels s(x, y). Chaque pixel compte le nombre
de photons issus d’une surface carrée de la terre (ex. 10 m2. ).
Les photons sont captés au travers des filtres spectraux. Ceci donne une vecteur de
caractéristiques pour chaque pixel.
→
x : Le spectre des pigments des feuilles pour une espece.
→
Bi : Les variations du spectre intrinsèque dues aux variations d'age ou
→
d'humidité. Bi est spécifique à un individu. Il ne change pas entre les observations.
→
→
→
X = x + Bi : Le spectre des pigments des feuilles pour un individu
→
Bo : Les variations d'observations dues à l'angle du soleil et les effets de
filtrage de la lumière par l'atmosphère (humidité, pollution etc).
La classification
La classification est une capacité fondamentale de l'intelligence.
Comprendre : Faire entrer dans une catégorie.
Les perceptions brutes (les phénomènes) sont comprise par l'association aux
catégories mentales (les concepts).
La capacité de classer les phénomènes est caractéristique à toute espèce vivante.
Reconnaissance : Le fait de reconnaître, d'identifier un objet, un être comme tel.
Reconnaître : A. Saisir un objet par la pensée, en reliant entre elles, des images,
des perceptions. Identifier par la mémoire, le judgement ou l'action.
1. Penser un objet présent comme ayant déjà été saisi par la pensée.
2. Juger un objet ou un concept comme compris dans une catégorie.
Identifier :
Reconnaître un individu
Classer :
Reconnaître un membre d'une catégorie, ou d'une classe.
Classe: n. f. 2) Ensemble d'individus ou d'objets qui ont des caractères communs.
ensemble n. m. : un groupe.
1-5
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Les ensembles peuvent êtres définis par
extension : une liste complète des membres
intention : une conjonction des caractéristiques
Un ensemble est défini par un test d'appartenance.
par extension : Une comparaison d'une observation avec des membres connus de
l'ensemble (des prototypes)
par intention : Conjonction de prédicats définis sur les propriétés observées
Ceci correspond (grosso modo) aux deux approches de la reconnaissance statistique
: les techniques de classification paramétriques (par intention) et non-paramètriques
(par extension).
La classification est un processus d'association d'une classe à une observation.
x1
x2
...
xn
d{g(x1,x2, ..., xn)}
^
w
Pour un vecteur de caractéristique il sort une estimation de la classe, w^
Les techniques de reconnaissance de formes statistiques fournissent une méthode
pour induire des tests d'appartenance à partir d'un ensemble d'échantillons.
La classification se résume à une division de l'espace de caractèristique en partition
disjoint. Cette division peut-être fait par estimation de fonctions paramétrique ou
par une liste exhaustives des frontières.
Le critère est la probabilité.
Cette probabilité est fournie par la règle de Bayes.
→
p(Classek | X ) =
→
p(X | Classe k ) p(Classe k)
→
p(X )
1-6
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La probabilité d'un évenement.
La sémantique (ou "sens") de la probabilité d'un événement peut être fourni par sa
fréquence d'occurrence ou par un système d'axiomes. L' approche frequentielle a
l'avantage d'être facile à comprendre. Par contre, elle peut entrainer les difficultés
dans l'analyse. Les mathématiciens préferent une définition axiomatique.
Dans le deux cas, la probabilité est une fonction numérique, Pr() ∈ [0, 1].
Le domaine de la fonction Pr() est une ensemble S.
L'ensemble S est composé de K sous-ensembles (tribus) disjoints d'evennements,
S = {A 1 ∪ A2 ∪ ...∪ AK}
Définition Fréquentielle.
Une définition "Fréquentielle" de la probabilité sera suffisante pour la plupart des
techniques vues dans ce cours.
Soit M observations des événement aléatoires dont Mk appartiennent à la classe Ak.
La Probabilité d'observer un événement de la classe Ak est
Mk
pk = p(Ak) = Pr{Ak} ≡ Lim { M }
M→ ∞
Mk
Pour le cas pratique ou M est fini, Pr{wk} ≈ M
La validité de l'approximation dépend du nombre d'échantillons M.
Définition Axiomatique.
Une définition axiomatique permet d'eviter certain difficulté dans l'analyse de
systèmes probabilistes. Trois postulats sont suffisants :
Postulat 1 : ∀ A ∈ S : Pr(A) ≥ 0
Postulat 2 : Pr(S) = 1
Postulat 3 : ∀ Ai, A j ∈ S tel que Ai ∩ Aj = ∅ : Pr( A i ∪ Aj) = P(Ai) + P(Aj)
1-7
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La probabilité de la valeur d'une variable aléatoire
Pour X entier, tel que X ∈ [Xmin, X max] . On peut traiter chacun
des valeurs possibles comme une classe d’événement.
Si les valeurs de x sont entières, tel que x ∈ [xmin, x max]
on peut estimer la probabilité a partir de M observations de la valeur, {Xm}.
On compte le nombre d'observation de chaque valeur, x, dans une table, h(x).
L'existence des ordinateurs avec des centaines de megabytes rendre des tables de
fréquence très pratique pour la mise en œuvre en temps réel des algorithmes de
reconnaissance. Dans certains domaines, comme l'analyse d'images, par abus de
langage, un tel table s'appelle une histogramme. Proprement dit, l'histogramme est
une représentation graphique de h(x)
Ainsi la probabilité d'une valeur de X ∈ [Xmin, Xmax] est la fréquence de cette
valeur. Avec M observations de la valeur, X, on peut faire une table, h(x), de
fréquence pour chacun des valeurs possibles. On observe M exemples de X, {Xm}.
Pour chaque observation on ajoute "1" à son entré dans la table.
∀m=1, M : h(Xm) := h(Xm) + 1; M := M+1;
h(x) est une table de fréquence pour chaque x ∈ [xmin, x max].
Ainsi, on peut définir la probabilité d’une valeur x par sa fréquence :
1
pr{Xm=x} ≡ Lim { M h(x)}
M→ ∞
Quand M est fini, on peut faire appel à l'approximation.
1
pr{X=x} = p(x) ≈ M h(x)
La validité de l'approximation depend dunombre de valeurs possible et de M.
En règle générale, on dit qu'il faut 10 exemples par valeur possible.
Que faire si la masse d'exemple est insuffisante : M < 10 (Xmax–Xmin) ?
Que faire si x n'est pas entier ? Il faut une fonction paramétrique pour p(X).
1-8
Reconnaissance, Probabilité et la Règle de Bayes
Pour x entier, tel que x ∈ [Xmin, Xmax]
x par sa fréquence :
Séance 1
on peut définir la probabilité d'un valeur
1
p(X=x) ≡ Lim { M h(x)}
M→ ∞
Quand M est fini, on peut faire appel à l'approximation.
1
p(X=x) ≈ M h(x)
La validité de l'approximation depend de la nombre de valeurs possible et de M.
En régle générale, on dit qu'il faut 10 echantillons par valeur possible.
Nous verrons le problème d'estimation de l'erreur plus tard
1-9
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Exemple : Les statistiques de pixel couleurs
Une image est une table de pixels.
Chaque pixel est une observation d'une scène, et donc, une variable aléatoire.
Il y a beaucoup des pixels dans les images (512 x 512 = 218 = 256 K pixels)
Les pixels d'une image couleur sont representé par 3 octets R, G et B avec (8 bits
par octets). Dans ce cas, chaque pixel est une vecteur aléatoire.
→
X = (R, G, B)T
ou R, G, et B sont issue du [0, 255].
Pour un vecteur de caractéristique, on peut calculer une table à 3 dimensions.
→
Pour un image couleur, composé de (R, G, B), avec 8 bits par pixel, h(X) contient
2563 = 224 valeurs. Mais chaque image contient 5122 = 218 pixels.
Si on suppose qu'il faut 10 exemples par cellulle, Il faut 10 x 26 images = 640
→
→
1
images pour une estimation valable de p(X ) = M h(X ) .
On peut transformer le vecteur (R, G, B)T en luminance et chrominance.
La luminance, ou intensité, L, est en proportion de cos(i) où i est l'angle
entre la source et la normale de la surface. La chrominance, C1, C 2 est une
signature pour la reconnaissance.
Composant
Speculaire
Composant
Lambertian
Lumieres
Surface
Pigment
La composant "luminant" est déterminé par l'orientation de la surface.
1-10
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La composant "chrominant" est déterminé par la composition de la spectre de la
source et le spectre d'absorbation des pigments de la surfaces. Si la spectre de la
source est constante, la chrominance indique l'identité de l'objet
Par exemple :
L = R+G+B
R
C1 = R+G+B
G
C2 = R+G+B
R, G, B sont les entiers. Donc, C1, C 2 sont issu d'une ensemble finit de valeurs dans
l'intervalle [0, 1]. On peut transformer C1, C 2 en entier entre [0, N-1], par
R
C1 = Round ( N · R+G+B ).
G
C2 = Round ( N · R+G+B ).
On aura N2 cellulles de chrominances dans l'histogramme.
Par exemple, pour N=32, on a 322 = 1024 cellules à remplir est
il nous faut que M = 10 K pixels d'exemples. (Une image = 256 K pixels).
Dans ce cas, pour M observations
→
→
1
p(X) ≈ M h(X)
1-11
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Probabilité a posteriori : Le cas de variable discret
Pour les observations de K classes wk, la probabilité conditionnelle est
→
→
Si X est composé de variable discretes, {x ∈ Ν} tel que x ∈ [Xmin,
p(X | wk).
→
Xmax], on peut faire une table hk(X) pour les Mk observations de la classe w k.
→
→
1
p(X | wk ) ≈ M hk(X)
k
La somme de toutes les observations est M =
K
∑
k=1
K
→
p(X) =
∑
k=1
Mk
→
p(w k) p(X | wk )
→
→
1
1 K
≈ M h(X) = M ∑ Mk hk(X)
k=1
La probabilité à posteriori peut être calculé par la règle de Bayes.
→
p(wk | X ) =
→
p(X | w k ) p(w k)
→
p(X )
1-12
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La Règle de Bayes
Soit q une proposition d'un évenement.
Par axiome 2 de la définition des systèmes de probabilités :
P(q) + P(¬q) = 1.
Soit deux propositions p et q.
P(p ∧ q) est la probabilité "conjointe" de p et q.
Si p et q sont mutuellement exclusifs..
P(p ∧ q) = P(p) · P(q),
P(p ∨ q) = P(p) + P(q).
On peut voir ça d'une manière graphique :
P(p)
P(¬p)
1
P(¬q) P(¬q) x P(p)
P(q)
P(q) x P(p)
P(¬q)x P(¬p)
P(q) x P(¬p)
0
0
oit :
1
P(p ∧ q) + P(p ∧ ¬q) + P(¬p ∧ q) + P(¬p ∧ ¬q) = 1
P(p ∧ q) = A
P(p ∧ ¬q) = B
P(¬p ∧ q) = C
P(¬p ∧ ¬q) = D
Dans ce cas, les probabilités marginales sont
P(p) = A + B = P(p ∧ q) + P(p ∧ ¬q)
P(q) = A + C = P(p ∧ q) + P(¬p ∧ q)
1-13
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La probabilité conditionnelle de q étant donnée p s'écrit P(q | p)
P(q | p) =
P(p ∧ q)
A
=
P(p)
A+B
de la même manière :
P(p | q) =
P(p ∧ q)
A
=
P(q)
A+C
Par algèbre on déduire :
P(q | p) P(p) = P(p | q) P(q)
Ceci est une forme de règle de Bayes. On peut écrire :
P(q | p) =
P(p | q) P(q)
P(p)
P(q | p) est la probabilité "conditionnelle" ou "postérieur"
1-14
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La règle de Bayes avec une ratio d'histogrammes.
La probabilité à posteriori peut être calculé par la règle de Bayes.
→
p(wk | X ) =
→
p(X | w k ) p(w k)
→
p(X )
→
Dans le cas des valeurs de X discrètes tel que x ∈ [Xmin, X max] , on a
Mk
p(wk) ≈ M
probabilité de la classe wk:
→
probabilité conditionnelle de X):
→
Probabilité à priori de X :
→
→
1
p(X| w k) ≈ M hk(X)
k
→
→
1
p(X) ≈ M h(X)
ce qui donne :
p(wk | X ) =
p(X | w k ) p(w k)
p(X)
≈
→
Mk 1
→
h
(X
)
k
M Mk
hk(X)
=
→
→
1
h(X)
h
(
X
)
M
Cette technique s'avère très utile dans les cas où il y a suffisemment d'échantillons
pour faire un histogramme valable. Par exemple quand on traite des images ou les
signaux.
Que faire si la masse d'exemple est insuffisante : M < 10 (Xmax–Xmin) ?
Que faire si x n'est pas entier ? Il faut une fonction paramétrique pour p(X).
1-15
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La Loi Normale : Une fonction paramétrique pour p(X).
Quand les variables aléatoires sont issues d'une séquence d’événements aléatoires,
leur densité de probabilité prend la forme de la loi normale, N(µ, σ).
Ceci est démontré par le théorème de la limite centrale. Il est un cas fréquent en
nature.
Les paramètres de N(µ, σ) sont les premiers et deuxième moments
des exemples. Donc, on peut les estimer pour n’importe quel nombre d'exemples.
On peut même estimer les moments quand il n'existe pas les bornes (Xmax–Xmin)
ou quand X est une variable continue.
Dans ce cas, p( ) est une "densité" et on peut utiliser
N(µ,
σ) comme une fonction
de densité pour p(x).
1
p(x)≈ N(x; µ, σ) =
2πσ
e
–
(x–µ)2
2σ2
N(x; µ, σ)
x
µ+σ
µ
µ+σ
Le base "e" est : e = 2.718281828....
Il s'agit du fonction tel que
1
2πσ
Le terme
∞
⌠

⌡
e
∫ ex
dx = ex
sert à normaliser la fonction en sorte que sa surface est 1.
(x–µ)2
2σ2 dx = 2π σ.
–
–∞
Le terme d2(x)=
(x–µ)2
est la distance x et µ normalisée par la variance.
σ2
1-16
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La différence (x – µ)2 est la "distance" entre une caractéristique et la caractéristique
"nominale" d'une classe. La variance, σ2, sert à "normaliser" cette distance.
La différence normalisée par la variance est connue sous le nom de "Distance de
Mahalanobis". La Distance de Mahalanobis est un test naturel de similarité
Estimations des moments d'une densité
Le premier moment : La Moyenne
Soit M observations d'un variable aléatoire, { X1, X 2, ..., X 3} = {Xm}
La moyenne est l’espérance de {Xm}. .
1 M
µ ≡ E{x} = M ∑ X m
m=1
Il s'agit d'une somme sur M (le nombre exemples). Cette somme existe, même
quand Xmin et X max n'existent pas et quand X est réelle.
On note que dans le cas X est un nombre entier, on peut aussi estimer la moyenne
par la table de fréquence. La masse d’un histogramme, h(x) est le nombre
d'échantillons qui composent l'histogramme, M.
M=
xmax
∑ h(x)
x=xmin
Pour X entier, tel que X ∈ [xmin, x max] on peut démontrer que
µ≡
xmax
1 xmax
E{x} = M ∑ h(x) ≈
∑ p(x)·x
x=xmin
x=xmin
1 M
1 xmax
donc : µ ≡ E{x} = M ∑ X m = M ∑ h(x)
m=1
x=xmin
Pour X réel
µ ≡ E{x} =
∫ p(x)·x dx
1-17
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
Le deuxième moment (La variance)
La variance, σ2, est le deuxième moment de la densité de probabilité.
Pour un ensemble de M observations {xm}
1 M
≡ E{(X m-µ)2} = M ∑ (X m – µ)2
m=1
Mais l'usage de µ estimé avec le même ensemble, introduit un biais dans σ2 .
Pour l’éviter, on peut utiliser une estimation sans biais.
σ2
σ2
M
1
= M-1 ∑ (X m – µ)2
m=1
Lequel est correct ? (les deux !)
Pour X entier, tel que X ∈ [Xmin, X max] on peut démontrer que
1 Xmax
= E{(X m-µ)2} = M ∑ h(x)(x – µ)2
x=xmin
Ceci est vrais parce que la table h(x) est fait de {Xm}.
σ2
Donc :
σ2
1 M
1 xmax
= M ∑ (X m – µ)2 = M ∑ h(x)(x – µ)2
m=1
x=xmin
Pour X réel on a
σ2 ≡
E{(X m–µ)2} =
∫ p(x)·(x–µ)2 dx
1-18
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
La Loi Normale
Avec µ et
σ2, on peut estimer la densité p(x) par N(x; µ, σ)
1
pr(X=x) = p(x) = N(x; µ, σ) =
2πσ
N(x; µ, σ)
e
–
(x–µ)2
2σ2
a la forme :
N(x; µ, σ)
x
µ+σ
µ+σ
µ
La moyenne, µ, est le premier moment de la densité p(x).
µ ≡ E{X} =
∫ p(x)·x dx
La variance, σ2 est le deuxième moment de p(x).
σ2 ≡
E{(X–µ)2} =
∫ p(x)·(x–µ)2 dx
Estimation d’un vecteur de variables aléatoires
Pour un vecteur de D propriétés
→
M
1
µ ≡ E{X} = M
∑
m=1
→
Xm


=



. . . 
D 
1
2
=
 E{X 1} 
 E{X 2} 
 ... 
E{X }
 D
→
Pour X entier, tel que pour chaque d ∈ [1, D], xd ∈ [xdmin, xdmax] on peut
démontrer que
1-19
Reconnaissance, Probabilité et la Règle de Bayes
Séance 1
xDmax →
1 x1max
E{x d} = M ∑ ....
∑ h(x) xd
x1=x1min xD=xDmin
µd ≡
Pour x réel,
µd ≡
E{x d} =
∫ ∫ ... ∫
→
→
p(x) ·x d dX
Dans tous les cas :
→
µ = E{X}


=



. . . 
n 
1
2
=
E{x 1}
E{x 2}
 ... 
E{x }
 n
Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir
→
de M observations {X m}
σij2
≡ E{ (Xi – E{Xi} )(X j – E{Xj})}
=
1 M
∑ (X im – µi)(X jm – µj))
M m=1
Et encore, pour éviter le bias, on peut utiliser :
σij2 =
M
1
∑
M-1 m=1(X im – µi)(X jm – µj))
Ces coefficients composent une matrice de covariance. C
→
Cx ≡ E{[X –
Cx ≡
→
→
→
→
→
→
→
µ)(X – µ)T} = E([X – E{X })(X – E{X }) T}




σ112
σ212
...
σD12
σ122
σ222
...
σD22
σ1D2
σ2D2
...
σDD2
...
...
...




→
Dans le cas d'un vecteur de propriétés, X, la loi normale prend la forme :
1-20
Reconnaissance, Probabilité et la Règle de Bayes
→
p(X)=
→
→
N( X ; µ ,C ) =
e
1
D
1
2
(2π) det(C)2
Séance 1
1
→
– 2(X –
→
→
µ)TCx–1(X
–
→
µ
)
x1
x2
Le terme
D
1
2
(2π) det(C)2 est un facteur de normalisation.
∫ ∫ ...∫ e
→
1
– 2(X –
→
→
µ)TCx–1(X
–
→
µ
)
D
1
dX1 dX2 ... dXD = (2π) 2 det(C)2
La déterminante, det(C) est une opération qui donne la "énergie" de C.
Pour D=2
a b
det c d  = a·b–c·d
Pour D=3
 a b c
det  d e f  =
 g h i


e f
f d
d e
a·det h i  + b·det i g  + c· det g h 
= a(ei-fh)+ b(fg-id)+ c(dh-eg)
pour D > 3 on continue recursivement.
L'exposant est une valeur positive et quadrique.
1 → → T –1 → →
(si X est en mètre, 2 (X – µ) Cx (X – µ ) est en mètre2. )
Cette valeur est connue comme la "distance de Mahalanobis".
1-21
Reconnaissance, Probabilité et la Règle de Bayes
→
1 →
d2(X)= 2 (X –
→
→
Séance 1
→
µ) TCx–1(X – µ )
Il s'agit d'une distance euclidienne, normalisé par la covariance Cx.
→
Cette distance est bien définie, même si les composants de X n'ont pas les mêmes
unités. (Ceci est souvent le cas).
Le premier moment d'une densité est son moyenne (son espérance).
La deuxième moment d'une densité est son covariance.
Pour le vecteur d'observations :
→
→
µ = E{X}
 µ1 
µ 
=  ...2 
 µ 
d
où chaque composant est
→
→
µd = ⌠⌡ p(X) ·x i dX =
∞
∫ x i p(xi)dxi
–∞
Les moments sont conservés par les transformations linéaires.
La transformation linéaire d'une loi normale et une loi normale.
Les moments d'une transformation linéaire d'un jeu de données sont
les transformations linéaires des moments de ces jeux de donnée.
En conséquence, La distance de Mahalanobis est invariante aux transformations
linéaires. Pour matrice T
→
→
T { d2(X )}= d2(T {X } )
1-22
Téléchargement