Reconnaissance Bayesienne

publicité
Systèmes Intelligents : Raisonnement et Reconnaissance
James L. Crowley
Deuxième Année ENSIMAG
Deuxième Sémestre 2004/2005
Séance 9
13 avril 2005
Reconnaissance Bayesienne
Notations......................................................... 2
La Classification................................................ 3
La Classification Bayesienne .................................................. 4
Les Variations Aléatoires des Caractéristiques ......................... 5
Probabilité :......................................................................... 8
La Loi Normale................................................. 9
Estimations des moments d'une densité.................................... 10
Le premier moment : La Moyenne ...................................10
Le deuxième moment (La variance)..................................11
La Loi Normale pour D = 1................................................... 12
La Loi Normale pour D > 1................................................... 13
Sources Bibliographiques :
"Neural Networks for Pattern Recognition", C. M. Bishop, Oxford Univ. Press,
1995.
"Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973.
Reconnaissance Bayesienne
Séance 9
Notations
→
x
Un vecteur
X
Un vecteur aléatoire (non-prévisible).
D
A,B
E
k
K
Nombre de dimensions de X
des classes d'événements.
Une événement.
Indice d'une classe
Nombre de classes
Mk
M
ωk
p(ω k)
Nombre d'exemples de la classe k.
Nombre totale d'exemples de toutes les classes
K
M = ∑ Mk
k=1
Le nombre de valeurs possible pour x.
Histogrammes des valeurs (x est entieres avec range limité)
Histogramme des valeurs pour la class k.
K
h(x) = ∑ h k(x)
k=1
Proposition que l'evennement E ∈ la classe k
Probabilité que E est un membre de la classe k.
Y
La valeur d'une observation (un vecteur aléatoire).
→
→
N
h(x)
hk(x)
→
→
→
P(X )
→
→
Densité de Probabilité pour X
→
→
p(X = x )
Probabilité q'une X prendre la valeur x
P(X | ω k)
Densité de Probabilité pour X etant donné que ω k
→
→
→
P(X ) =
K
∑
→
p(X | ω k) p(ω k)
k=1
9-2
Reconnaissance Bayesienne
Séance 9
La Classification
→
→
Soit les événements E décrit par une vecteur de caractéristiques X : (E,X).
Soit K classes d'événements {A k} = {A1, A 2, ..., A K}
La classification est un processus d'estimation de l'appartenance d'un événement à
→
une des classes Ak fondée sur les caractéristiques de l'événement, X.
x1
x2
...
xd
Class(x1,x2, ..., x d)}
^ω
ω^k = Classer(E) = Decider(E ∈ Α k)
ω^k est la proposition que (E ∈ ω k).
La fonction de classification est composée de deux parties d() et gk():
→
ω^k = d(g(X)).
→
g(X) :
d() :
Une fonction de discrimination : RD → RK
Une fonction de décision : RK → {ω K}
9-3
Reconnaissance Bayesienne
Séance 9
La Classification Bayesienne
La technique Bayesienne de Classification repose sur une fonction de vérité
probabiliste et le règle de Bayes.
Dans un système de vérité probabilisté, la valeur de vérité de la proposition une
probabilité :
p(ω k) = p(E ∈ Α k) = vérité(E ∈ ω k)
Le critère de décision est de minimiser le nombre d'erreur. Dans un système
probabiliste, ca revient de minimiser la probabilité d'erreur. Ceci est équivalent à
choisir la classe le plus probable.
→
ω^k = Decider(E ∈ ω k). = arg-max {p(ω k | X )}
ωk
→
Pour estimer la probabilité nous utilisons les caractéristiques, X , de l'événement.
Conisdère le cas D = 1 et K = 2. Dans ce cas, le domaine d'X est un axe.
La classification est équivalente à une decoupage du domaine d'X en deux zones : Z 1
et Z 2.
ω^1 si X ∈ Z 1 et ω^2 si X ∈ Z 2
Zone Z1
Zone Z2
p(ω1 |x)
p(ω2 |x)
1
0
x
xmin
X
xmax
9-4
Reconnaissance Bayesienne
Séance 9
La probabilité d'erreur est la somme des probabilités de p(ω 2) en Z1 et
la somme de probabilité de p(ω 1 |X) en zone 2.
p(erreur) =
∑ p(ω 2 |
X) +
Z1
∑ p(ω 1 |
X)
Z2
La minimum est atteint quand :
Donc
d(gk(X)) = arg-max {p(ω k | X )}
ωk
Dans ce cas, nous avons utilisé arg-max {p(ω k | X )} en tant que fonction de
ωk
décision et g k(X) = p(ω k | X) comme la fonction de discrimination
Les Variations Aléatoires des Caractéristiques
Les vecteurs de caractéristique porte une composante "aléatoire" avec (au moins)
deux origines :
1) Les variations des individus.
2) Le bruit des capteurs
1) Les variations des individus.
La formation des vrais objets physiques est sujette aux influences aléatoires.
Pour les objets d'une classe, ω k, les propriétés des objets individuels sont,
les valeurs aléatoires. On peut résume ceci par une somme d'une forme
→
→
"intrinsèque" x plus ces influences aléatoires individuelles, Bi.
→
→
→
X = x + Bi
Les plupart de techniques probabilistes de reconnaissance supposent un bruit additif.
En notation vectorielle :
1
X
X
X =  ...2 
 Xn 
→
=
 xx1 
 ...2 
 xn 
1
B
B
+  ...2 
 Bn 
Ceci n'est pas strictement nécessaire. Ils existe de méthodes pour la bruit non-additif
9-5
Reconnaissance Bayesienne
Séance 9
2) Le bruit des capteurs
(def.) Une observation : une constatation attentive des phénomènes.
Pour des machines, des observations sont fournies par les capteurs.
Ceci donne une observation (un phénomène) sous forme d'une ensemble de
caractéristiques : { Y1, Y 2 ... YD}.
1
Y
Y2
Y=  ... 
 Yn 
→
→
Les observations sont corrompues par un bruit, Bo.
→
→
→
→
→
→
Y = X + Bo = x + Bi + Bo
Le bruit est, par définition, imprévisible. Il est aléatoire.
Donc les caractéristiques observées sont des vecteurs aléatoires.
La corruption des observations par un bruit aléatoire est fondamentale aux capteurs
physiques.
→
Pour chaque classe ω k, la probabilité d'observé Y est fournie par la règle de Bayes.
→
p(ω k | Y ) =
→
p(Y | ω k) p(ω k)
→
p(Y )
→
→
→
Si Y = F(X + B o ) est issu de la classe ω k ayant caractéristique
→
→
→
X = x + Bi
Une Exemple - Le spectre observées par un satellite.
Une image satellite est composée de pixels s(x, y). Chaque pixel compte le nombre
de photons issus d’une surface carré de la terre (ex. 10 m2. ).
Les photons sont captés au travers des filtres spectraux. Ceci donne un vecteur de
caractéristiques pour chaque pixel. Soit une région de végétation {blé, maize, etc}
→
x : Le spectre des pigments des feuilles pour une espèce.
9-6
Reconnaissance Bayesienne
Séance 9
→
Bi : Les variations du spectre intrinsèque dû aux variations d'age ou
→
d'humidité. Bi est spécifique à un individu. Il ne change pas entre les observations.
→
→
→
X = x + Bi : Le spectre des pigments des feuilles pour un individu
→
Bo : Les variations d'observations dues à l'angle du soleil et les effets de
filtrage de la lumière par l'atmosphère (humidité, pollution etc). Ils sont présents
dans tous les pixels.
X(λ)
y1(λ)
y3(λ)
y2(λ)
y4(λ)
λ
Une image est une table de pixels, avec les positions sur les lignes (r pour "row") et
→
colonne (c). Un pixel, Y(c,r), est un vecteur d'entiers, y1, ..., yD. Chaque
composant est l'intégral sur c, r et λ (longueurs d'onde) d'une produit d’un filtre
spectral avec le spectre reçu sur la région c,r.
c+dc
∫
yd(c,y) = Quant{
c
r+dr
∫
r
λ+δλ
∫
λ
X(c,r,λ) · f d(λ), dc dr dλ. }
C'est opération est réalisé par l'optique de la caméra. L'opération "Quant{}
numérise les valeurs yd avec un pas "q" sur une plage entre 0 et vmax.
Une classification est une estimation de la classe de végétations dominant, ω k, pour
→.
la région observée par le pixel à partir de le vecteur d'observation Y
→
ω^k ?= Class{ Y }
y1
y2
...
yd
Class(y1,y2, ..., yd)}
^
w
9-7
Reconnaissance Bayesienne
Séance 9
Probabilité :
La probabilité peut être assimilé à la fréquence d'occurrence.
Par exemple, si nous observons M événements et Mk de ces événements sont issus
de la classe ω k , on dit que la probabilité qu'un événnement E soit issu de la classe
ω k est :
Mk
p(E ∈ ω k) = p(ω k) ≡ Lim { M }
M→ ∞
pour M finit, en écrit
Mk
p(ω k) ≈ M
On a vue en séance 8, que cette technique marche également pour les vecteurs de
→
→
caractéristiques X . La histogramme est une table a D dimensions : h(X)
→
probabilité conditionnelle de X):
→
Probabilité à priori de X :
→
→
1
p(X| ω k) ≈ M hk(X)
k
→
→
1
p(X) ≈ M h(X)
ce qui donne :
→
p(ω k | X ) =
→
p(X | ω k ) p ( ω k)
→
p(X )
≈
→
Mk 1
→
h
(X
)
k
M Mk
hk(X)
=
→
→
1
h(X)
h
(
X
)
M
Cette technique s'avère très utile dans les cas où il y a suffisamment d'échantillons
pour faire un histogramme valable. Pour un tableau de D dimensions, avec B,
cellules pers dimensions, le précision σ ~ M/N
le nombre de cellules deviens N = BD et il faut M > 10 BD
N accroitre exponentiellement avec le nombre de dimensions.
Que faire si la masse d'exemple est insuffisante : M < 10 N ?
Que faire si x n'est pas une nombre entiere ?
Dans ces cas, on peut faire appel à une fonction paramétrique pour p(X).
9-8
Reconnaissance Bayesienne
Séance 9
La Loi Normale
La fonction paramétrique la plus utilisée est la loi Normale.
Quand les variables aléatoires sont issues d'une séquence d’événements aléatoires,
leur densité de probabilité prend la forme de la loi normale,
N(µ,
σ). Ceci est
démontré par le théorème de la limite centrale. Il est un cas fréquent en nature.
La loi Normale décrit une population d'exemples {Xm}.
Les paramètres de
N(µ,
σ) sont les premiers et deuxième moments de la
population.
On peut estimer les moments pour n’importe quel nombre d'exemples (M>0)
On peut même estimer les moments quand il n'existe pas les bornes (Xmax–Xmin)
ou quand X est une variable continue.
Dans ce cas, p( ) est une "densité" et il faut une fonction paramétrique pour p().
Dans la plupart des cas, on peut utiliser
N(µ,
σ) comme une fonction de densité
pour p(x).
1
p(x)≈ N(x; µ, σ) =
2πσ
e
(x–µ)2
2σ2
–
N(x; µ, σ)
µ−σ
µ
µ+σ
Le base "e" est : e = 2.718281828....Il s'agit du fonction tel que
1
2πσ
Le terme
∞
⌠

⌡
e
x
∫ ex
dx
= ex
sert à normaliser la fonction en sorte que sa surface est 1.
(x–µ)2
2σ2 dx = 2π σ.
–
–∞
9-9
Reconnaissance Bayesienne
Séance 9
(x–µ)2
est la difference entre x et µ normalisée par la variance.
σ2
La différence (x – µ)2 est la "distance" entre une caractéristique et la moyenne de
l'ensemble {Xm}. La variance, σ2, sert à "normaliser" cette distance.
Le terme d2(x)=
La différence normalisée par la variance est connue sous le nom de "Distance de
Mahalanobis". La Distance de Mahalanobis est un test naturel de similarité
Estimations des moments d'une densité
Le premier moment : La Moyenne
Soit M observations d'un variable aléatoire, {Xm} : { X 1, X 2, ..., X M}
La moyenne est l’espérance de {Xm}. .
1 M
µ ≡ E{X} = M ∑ X m
m=1
Il s'agit d'une somme sur M (le nombre exemples).
On note que dans le cas ou il existe une histogramme pour X, on peut aussi estimer
la moyenne par la table de fréquence. La masse d’un histogramme, h(x) est le
nombre d'échantillons qui composent l'histogramme, M.
M=
xmax
∑
h(x)
x=xmin
Pour X entier, tel que X ∈ [xmin, x max] on peut démontrer que
1 xmax
µ ≡ E{X} = M ∑ h(x) · x
x=xmin
1 M
1 xmax
donc : µ ≡ E{X} = M ∑ X m = M ∑ h(x)
m=1
x=xmin
Pour X continue la moyenne peut être calculé par le 1e moment du pdf.
µ ≡ E{X} =
∫ p(x)·x dx
9-10
Reconnaissance Bayesienne
Séance 9
Le deuxième moment (La variance)
La variance σ2 est le deuxième moment de la densité de probabilité.
Pour un ensemble de M observations {Xm}
1 M
≡ E{(X m-µ)2} = M ∑ (X m – µ) 2
m=1
Mais l'usage d'µ estimé avec le même ensemble, introduit un biais dans σ2 .
Pour l’éviter, on peut utiliser une estimation sans biais.
σ2
M
1
2
σ = M-1 ∑ (X m – µ) 2
m=1
Lequel est correct ? (les deux !) Ils ont les usages différents.
Pour X entier, tel que X ∈ [Xmin, X max] on peut démontrer que
1 Xmax
= E{(X m-µ)2} = M ∑
h(x)(x –µ)2
x=xmin
Ceci est vrai par ce que la table h(x) est faite de {Xm}.
σ2
Donc :
1
σ2 = M
M
1 xmax
2
∑ (X m – µ) = M ∑ h(x)(x – µ)2
m=1
x=xmin
Pour X réel, la variance est la deuxième moment de la pdf.
σ2 ≡
E{(X m–µ)2} =
∫ p(x)·(x–µ)2 dx
9-11
Reconnaissance Bayesienne
Séance 9
La Loi Normale pour D = 1
La cas le plus simple concerne une seule caractéristique.
Avec µ et σ2, on peut estimer la densité p(x) par N(x; µ, σ)
1
p(X) = pr(X=x) = N(x; µ, σ) =
2πσ
N(x; µ, σ)
e
(x–µ)2
2σ2
–
a la forme :
N(x; µ, σ)
µ−σ
µ
µ+σ
x
La moyenne est le premier moment de la densité p(x).
µ ≡ E{X} =
∫ p(x)·x dx
La variance σ2 est le deuxième moment de p(x).
σ2 ≡
E{(X–µ)2} =
∫ p(x)·(x–µ)2 dx
9-12
Reconnaissance Bayesienne
Séance 9
La Loi Normale pour D > 1
Pour un vecteur de D caractéristiques :
M
→
1
µ ≡ E{X} = M
∑
→
Xm
m=1
 µµ1 
=  ...2 
 µD 
 E{X 1} 
 E{X 2} 
 ... 
E{X D}
=
→
Pour X entier, tel que pour chaque d ∈ [1, D], Xd ∈ [xdmin, xdmax] on peut
démontrer que
xDmax
→
1 x1max
µ d ≡ E{x d} = M ∑ .... ∑ h(x) xd
x1=x1min xD=xDmin
Pour x réel,
µd ≡
E{x d} =
∫ ∫ ... ∫

...
n 
E{x 1}
E{x 2}
 ... 
E{x n}
→
→
p(x) ·x d dX
Dans tous les cas :
→
µ = E{X}

=

1
2
=
Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir
→
de M observations {X m}
σij2
≡ E{ (Xi – E{Xi} )(X j – E{Xj})}
=
1 M
M ∑ (X im – µi)(X jm – µj) )
m=1
Ces coefficients composent une matrice de covariance. C
→
Cx ≡ E{[X –
→
→
→
→
→
→
→
µ )(X – µ )T} = E([X – E{X })(X – E{X }) T}
9-13
Reconnaissance Bayesienne



Cx ≡
Séance 9
σ112
σ212
...
σD12
σ122
σ222
...
σD22
σ1D2
σ2D2
...
σDD2
...
...
...



→
Dans le cas d'un vecteur de propriétés, X, la loi normale prend la forme :
→
p(X)=
→
→
N( X ; µ ,Cx ) =
e
1
D
1
(2π) 2 det(Cx )2
1
→
– 2(X –
→
→
µ )TCx–1(X
–
→
µ
)
x1
x2
D
1
(2π) 2 det(Cx)2
Le terme
∫∫
...
∫
e
1
→
– 2(X –
est un facteur de normalisation.
→
→
µ )TCx–1(X
–
→
µ
)
D
dX1 dX2 ... dXD = (2π) 2
1
det(C)2
La déterminante, det(C) est une opération qui donne la "énergie" de C.
a b
det c d 
Pour D=2
= a·b–c·d
Pour D=3
 a b c
det  d e f 
 g h i


=
e f
a·det h i 
f d
+ b·det i g 
d e
+ c· det g h 
= a(ei-fh)+ b(fg-id)+ c(dh-eg)
pour D > 3 on continue récursivement.
9-14
Reconnaissance Bayesienne
Séance 9
L'exposant est une valeur positive et quadrique.
1 → → T –1 → →
(si X est en mètre, 2 (X – µ ) Cx (X – µ ) est en mètre2. )
Cette valeur est connue comme la "distance de Mahalanobis".
→
1 →
d2(X)= 2 (X –
→
→
→
µ ) TCx–1(X – µ )
Il s'agit d'une distance euclidienne, normalisé par la covariance Cx.
→
Cette distance est bien définie, même si les composants de X n'ont pas les mêmes
unités. (Ceci est souvent le cas).
La loi Normale peut être visualisé par ses contours d'"équiprobabilité"
x2
p(X | µ, C)
Contours d'équi-probabilité
x1
→
Ces contours sont les contours de constant d2(X)
La matrice C est positif et semi-definite. Nous allons nous limiter au cas
ou C est positif et definite (C.-à-d. det(C ) = | C | > 0
si xi et x j sont statistiquement indépendants, σij2 = 0.
→
→
Soit les événements E décrit par une vecteur de caractéristiques X : (E,X).
Soit une ensemble aléatoire de M événements avec leurs caractéristiques.
→
Cet ensemble est dit l'ensemble d'entrainement (training set) {Xm}
9-15
Reconnaissance Bayesienne
Séance 9
Pour un vecteur de D caractéristiques :
M
→
→
1
µ ≡ E{X} = M
∑
Xm
m=1
 µµ1 
=  ...2 
 µD 
=
 E{X 1} 
 E{X 2} 
 ... 
E{X D}
→
Pour X entier, tel que pour chaque d ∈ [1, D], Xd ∈ [xdmin, xdmax] on peut
démontrer que
xDmax
→
1 x1max
µ d ≡ E{x d} = M ∑ .... ∑ h(x) xd
x1=x1min xD=xDmin
Pour x réel,
µd ≡
E{x d} =
∫ ∫ ... ∫

...
n 
E{x 1}
E{x 2}
 ... 
E{x n}
→
→
p(x) ·x d dX
Dans tous les cas :

=

→
µ = E{X}
1
2
=
Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir
→
de M observations {X m}
Soit
→
→
→
→
→
→T
Cx ≡ E{ V V
→
µ
→
→ →
→ T
} ≡ E{[X – µ )(X – µ ) }
V = X – E{X} = X –
Ces coefficients composent une matrice de covariance. Cx
Cx =
ou
σij2 =



σ112
σ212
...
σD12
σ122
σ222
...
σD22
...
...
...
σ1D2
σ2D2
...
σDD2



1 M
M ∑ (X im – µi)(X jm – µj) )
m=1
9-16
Reconnaissance Bayesienne
Séance 9
9-17
Téléchargement