Systèmes Intelligents : Raisonnement et Reconnaissance James L. Crowley Deuxième Année ENSIMAG Deuxième Sémestre 2004/2005 Séance 9 13 avril 2005 Reconnaissance Bayesienne Notations......................................................... 2 La Classification................................................ 3 La Classification Bayesienne .................................................. 4 Les Variations Aléatoires des Caractéristiques ......................... 5 Probabilité :......................................................................... 8 La Loi Normale................................................. 9 Estimations des moments d'une densité.................................... 10 Le premier moment : La Moyenne ...................................10 Le deuxième moment (La variance)..................................11 La Loi Normale pour D = 1................................................... 12 La Loi Normale pour D > 1................................................... 13 Sources Bibliographiques : "Neural Networks for Pattern Recognition", C. M. Bishop, Oxford Univ. Press, 1995. "Pattern Recognition and Scene Analysis", R. E. Duda and P. E. Hart, Wiley, 1973. Reconnaissance Bayesienne Séance 9 Notations → x Un vecteur X Un vecteur aléatoire (non-prévisible). D A,B E k K Nombre de dimensions de X des classes d'événements. Une événement. Indice d'une classe Nombre de classes Mk M ωk p(ω k) Nombre d'exemples de la classe k. Nombre totale d'exemples de toutes les classes K M = ∑ Mk k=1 Le nombre de valeurs possible pour x. Histogrammes des valeurs (x est entieres avec range limité) Histogramme des valeurs pour la class k. K h(x) = ∑ h k(x) k=1 Proposition que l'evennement E ∈ la classe k Probabilité que E est un membre de la classe k. Y La valeur d'une observation (un vecteur aléatoire). → → N h(x) hk(x) → → → P(X ) → → Densité de Probabilité pour X → → p(X = x ) Probabilité q'une X prendre la valeur x P(X | ω k) Densité de Probabilité pour X etant donné que ω k → → → P(X ) = K ∑ → p(X | ω k) p(ω k) k=1 9-2 Reconnaissance Bayesienne Séance 9 La Classification → → Soit les événements E décrit par une vecteur de caractéristiques X : (E,X). Soit K classes d'événements {A k} = {A1, A 2, ..., A K} La classification est un processus d'estimation de l'appartenance d'un événement à → une des classes Ak fondée sur les caractéristiques de l'événement, X. x1 x2 ... xd Class(x1,x2, ..., x d)} ^ω ω^k = Classer(E) = Decider(E ∈ Α k) ω^k est la proposition que (E ∈ ω k). La fonction de classification est composée de deux parties d() et gk(): → ω^k = d(g(X)). → g(X) : d() : Une fonction de discrimination : RD → RK Une fonction de décision : RK → {ω K} 9-3 Reconnaissance Bayesienne Séance 9 La Classification Bayesienne La technique Bayesienne de Classification repose sur une fonction de vérité probabiliste et le règle de Bayes. Dans un système de vérité probabilisté, la valeur de vérité de la proposition une probabilité : p(ω k) = p(E ∈ Α k) = vérité(E ∈ ω k) Le critère de décision est de minimiser le nombre d'erreur. Dans un système probabiliste, ca revient de minimiser la probabilité d'erreur. Ceci est équivalent à choisir la classe le plus probable. → ω^k = Decider(E ∈ ω k). = arg-max {p(ω k | X )} ωk → Pour estimer la probabilité nous utilisons les caractéristiques, X , de l'événement. Conisdère le cas D = 1 et K = 2. Dans ce cas, le domaine d'X est un axe. La classification est équivalente à une decoupage du domaine d'X en deux zones : Z 1 et Z 2. ω^1 si X ∈ Z 1 et ω^2 si X ∈ Z 2 Zone Z1 Zone Z2 p(ω1 |x) p(ω2 |x) 1 0 x xmin X xmax 9-4 Reconnaissance Bayesienne Séance 9 La probabilité d'erreur est la somme des probabilités de p(ω 2) en Z1 et la somme de probabilité de p(ω 1 |X) en zone 2. p(erreur) = ∑ p(ω 2 | X) + Z1 ∑ p(ω 1 | X) Z2 La minimum est atteint quand : Donc d(gk(X)) = arg-max {p(ω k | X )} ωk Dans ce cas, nous avons utilisé arg-max {p(ω k | X )} en tant que fonction de ωk décision et g k(X) = p(ω k | X) comme la fonction de discrimination Les Variations Aléatoires des Caractéristiques Les vecteurs de caractéristique porte une composante "aléatoire" avec (au moins) deux origines : 1) Les variations des individus. 2) Le bruit des capteurs 1) Les variations des individus. La formation des vrais objets physiques est sujette aux influences aléatoires. Pour les objets d'une classe, ω k, les propriétés des objets individuels sont, les valeurs aléatoires. On peut résume ceci par une somme d'une forme → → "intrinsèque" x plus ces influences aléatoires individuelles, Bi. → → → X = x + Bi Les plupart de techniques probabilistes de reconnaissance supposent un bruit additif. En notation vectorielle : 1 X X X = ...2 Xn → = xx1 ...2 xn 1 B B + ...2 Bn Ceci n'est pas strictement nécessaire. Ils existe de méthodes pour la bruit non-additif 9-5 Reconnaissance Bayesienne Séance 9 2) Le bruit des capteurs (def.) Une observation : une constatation attentive des phénomènes. Pour des machines, des observations sont fournies par les capteurs. Ceci donne une observation (un phénomène) sous forme d'une ensemble de caractéristiques : { Y1, Y 2 ... YD}. 1 Y Y2 Y= ... Yn → → Les observations sont corrompues par un bruit, Bo. → → → → → → Y = X + Bo = x + Bi + Bo Le bruit est, par définition, imprévisible. Il est aléatoire. Donc les caractéristiques observées sont des vecteurs aléatoires. La corruption des observations par un bruit aléatoire est fondamentale aux capteurs physiques. → Pour chaque classe ω k, la probabilité d'observé Y est fournie par la règle de Bayes. → p(ω k | Y ) = → p(Y | ω k) p(ω k) → p(Y ) → → → Si Y = F(X + B o ) est issu de la classe ω k ayant caractéristique → → → X = x + Bi Une Exemple - Le spectre observées par un satellite. Une image satellite est composée de pixels s(x, y). Chaque pixel compte le nombre de photons issus d’une surface carré de la terre (ex. 10 m2. ). Les photons sont captés au travers des filtres spectraux. Ceci donne un vecteur de caractéristiques pour chaque pixel. Soit une région de végétation {blé, maize, etc} → x : Le spectre des pigments des feuilles pour une espèce. 9-6 Reconnaissance Bayesienne Séance 9 → Bi : Les variations du spectre intrinsèque dû aux variations d'age ou → d'humidité. Bi est spécifique à un individu. Il ne change pas entre les observations. → → → X = x + Bi : Le spectre des pigments des feuilles pour un individu → Bo : Les variations d'observations dues à l'angle du soleil et les effets de filtrage de la lumière par l'atmosphère (humidité, pollution etc). Ils sont présents dans tous les pixels. X(λ) y1(λ) y3(λ) y2(λ) y4(λ) λ Une image est une table de pixels, avec les positions sur les lignes (r pour "row") et → colonne (c). Un pixel, Y(c,r), est un vecteur d'entiers, y1, ..., yD. Chaque composant est l'intégral sur c, r et λ (longueurs d'onde) d'une produit d’un filtre spectral avec le spectre reçu sur la région c,r. c+dc ∫ yd(c,y) = Quant{ c r+dr ∫ r λ+δλ ∫ λ X(c,r,λ) · f d(λ), dc dr dλ. } C'est opération est réalisé par l'optique de la caméra. L'opération "Quant{} numérise les valeurs yd avec un pas "q" sur une plage entre 0 et vmax. Une classification est une estimation de la classe de végétations dominant, ω k, pour →. la région observée par le pixel à partir de le vecteur d'observation Y → ω^k ?= Class{ Y } y1 y2 ... yd Class(y1,y2, ..., yd)} ^ w 9-7 Reconnaissance Bayesienne Séance 9 Probabilité : La probabilité peut être assimilé à la fréquence d'occurrence. Par exemple, si nous observons M événements et Mk de ces événements sont issus de la classe ω k , on dit que la probabilité qu'un événnement E soit issu de la classe ω k est : Mk p(E ∈ ω k) = p(ω k) ≡ Lim { M } M→ ∞ pour M finit, en écrit Mk p(ω k) ≈ M On a vue en séance 8, que cette technique marche également pour les vecteurs de → → caractéristiques X . La histogramme est une table a D dimensions : h(X) → probabilité conditionnelle de X): → Probabilité à priori de X : → → 1 p(X| ω k) ≈ M hk(X) k → → 1 p(X) ≈ M h(X) ce qui donne : → p(ω k | X ) = → p(X | ω k ) p ( ω k) → p(X ) ≈ → Mk 1 → h (X ) k M Mk hk(X) = → → 1 h(X) h ( X ) M Cette technique s'avère très utile dans les cas où il y a suffisamment d'échantillons pour faire un histogramme valable. Pour un tableau de D dimensions, avec B, cellules pers dimensions, le précision σ ~ M/N le nombre de cellules deviens N = BD et il faut M > 10 BD N accroitre exponentiellement avec le nombre de dimensions. Que faire si la masse d'exemple est insuffisante : M < 10 N ? Que faire si x n'est pas une nombre entiere ? Dans ces cas, on peut faire appel à une fonction paramétrique pour p(X). 9-8 Reconnaissance Bayesienne Séance 9 La Loi Normale La fonction paramétrique la plus utilisée est la loi Normale. Quand les variables aléatoires sont issues d'une séquence d’événements aléatoires, leur densité de probabilité prend la forme de la loi normale, N(µ, σ). Ceci est démontré par le théorème de la limite centrale. Il est un cas fréquent en nature. La loi Normale décrit une population d'exemples {Xm}. Les paramètres de N(µ, σ) sont les premiers et deuxième moments de la population. On peut estimer les moments pour n’importe quel nombre d'exemples (M>0) On peut même estimer les moments quand il n'existe pas les bornes (Xmax–Xmin) ou quand X est une variable continue. Dans ce cas, p( ) est une "densité" et il faut une fonction paramétrique pour p(). Dans la plupart des cas, on peut utiliser N(µ, σ) comme une fonction de densité pour p(x). 1 p(x)≈ N(x; µ, σ) = 2πσ e (x–µ)2 2σ2 – N(x; µ, σ) µ−σ µ µ+σ Le base "e" est : e = 2.718281828....Il s'agit du fonction tel que 1 2πσ Le terme ∞ ⌠ ⌡ e x ∫ ex dx = ex sert à normaliser la fonction en sorte que sa surface est 1. (x–µ)2 2σ2 dx = 2π σ. – –∞ 9-9 Reconnaissance Bayesienne Séance 9 (x–µ)2 est la difference entre x et µ normalisée par la variance. σ2 La différence (x – µ)2 est la "distance" entre une caractéristique et la moyenne de l'ensemble {Xm}. La variance, σ2, sert à "normaliser" cette distance. Le terme d2(x)= La différence normalisée par la variance est connue sous le nom de "Distance de Mahalanobis". La Distance de Mahalanobis est un test naturel de similarité Estimations des moments d'une densité Le premier moment : La Moyenne Soit M observations d'un variable aléatoire, {Xm} : { X 1, X 2, ..., X M} La moyenne est l’espérance de {Xm}. . 1 M µ ≡ E{X} = M ∑ X m m=1 Il s'agit d'une somme sur M (le nombre exemples). On note que dans le cas ou il existe une histogramme pour X, on peut aussi estimer la moyenne par la table de fréquence. La masse d’un histogramme, h(x) est le nombre d'échantillons qui composent l'histogramme, M. M= xmax ∑ h(x) x=xmin Pour X entier, tel que X ∈ [xmin, x max] on peut démontrer que 1 xmax µ ≡ E{X} = M ∑ h(x) · x x=xmin 1 M 1 xmax donc : µ ≡ E{X} = M ∑ X m = M ∑ h(x) m=1 x=xmin Pour X continue la moyenne peut être calculé par le 1e moment du pdf. µ ≡ E{X} = ∫ p(x)·x dx 9-10 Reconnaissance Bayesienne Séance 9 Le deuxième moment (La variance) La variance σ2 est le deuxième moment de la densité de probabilité. Pour un ensemble de M observations {Xm} 1 M ≡ E{(X m-µ)2} = M ∑ (X m – µ) 2 m=1 Mais l'usage d'µ estimé avec le même ensemble, introduit un biais dans σ2 . Pour l’éviter, on peut utiliser une estimation sans biais. σ2 M 1 2 σ = M-1 ∑ (X m – µ) 2 m=1 Lequel est correct ? (les deux !) Ils ont les usages différents. Pour X entier, tel que X ∈ [Xmin, X max] on peut démontrer que 1 Xmax = E{(X m-µ)2} = M ∑ h(x)(x –µ)2 x=xmin Ceci est vrai par ce que la table h(x) est faite de {Xm}. σ2 Donc : 1 σ2 = M M 1 xmax 2 ∑ (X m – µ) = M ∑ h(x)(x – µ)2 m=1 x=xmin Pour X réel, la variance est la deuxième moment de la pdf. σ2 ≡ E{(X m–µ)2} = ∫ p(x)·(x–µ)2 dx 9-11 Reconnaissance Bayesienne Séance 9 La Loi Normale pour D = 1 La cas le plus simple concerne une seule caractéristique. Avec µ et σ2, on peut estimer la densité p(x) par N(x; µ, σ) 1 p(X) = pr(X=x) = N(x; µ, σ) = 2πσ N(x; µ, σ) e (x–µ)2 2σ2 – a la forme : N(x; µ, σ) µ−σ µ µ+σ x La moyenne est le premier moment de la densité p(x). µ ≡ E{X} = ∫ p(x)·x dx La variance σ2 est le deuxième moment de p(x). σ2 ≡ E{(X–µ)2} = ∫ p(x)·(x–µ)2 dx 9-12 Reconnaissance Bayesienne Séance 9 La Loi Normale pour D > 1 Pour un vecteur de D caractéristiques : M → 1 µ ≡ E{X} = M ∑ → Xm m=1 µµ1 = ...2 µD E{X 1} E{X 2} ... E{X D} = → Pour X entier, tel que pour chaque d ∈ [1, D], Xd ∈ [xdmin, xdmax] on peut démontrer que xDmax → 1 x1max µ d ≡ E{x d} = M ∑ .... ∑ h(x) xd x1=x1min xD=xDmin Pour x réel, µd ≡ E{x d} = ∫ ∫ ... ∫ ... n E{x 1} E{x 2} ... E{x n} → → p(x) ·x d dX Dans tous les cas : → µ = E{X} = 1 2 = Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir → de M observations {X m} σij2 ≡ E{ (Xi – E{Xi} )(X j – E{Xj})} = 1 M M ∑ (X im – µi)(X jm – µj) ) m=1 Ces coefficients composent une matrice de covariance. C → Cx ≡ E{[X – → → → → → → → µ )(X – µ )T} = E([X – E{X })(X – E{X }) T} 9-13 Reconnaissance Bayesienne Cx ≡ Séance 9 σ112 σ212 ... σD12 σ122 σ222 ... σD22 σ1D2 σ2D2 ... σDD2 ... ... ... → Dans le cas d'un vecteur de propriétés, X, la loi normale prend la forme : → p(X)= → → N( X ; µ ,Cx ) = e 1 D 1 (2π) 2 det(Cx )2 1 → – 2(X – → → µ )TCx–1(X – → µ ) x1 x2 D 1 (2π) 2 det(Cx)2 Le terme ∫∫ ... ∫ e 1 → – 2(X – est un facteur de normalisation. → → µ )TCx–1(X – → µ ) D dX1 dX2 ... dXD = (2π) 2 1 det(C)2 La déterminante, det(C) est une opération qui donne la "énergie" de C. a b det c d Pour D=2 = a·b–c·d Pour D=3 a b c det d e f g h i = e f a·det h i f d + b·det i g d e + c· det g h = a(ei-fh)+ b(fg-id)+ c(dh-eg) pour D > 3 on continue récursivement. 9-14 Reconnaissance Bayesienne Séance 9 L'exposant est une valeur positive et quadrique. 1 → → T –1 → → (si X est en mètre, 2 (X – µ ) Cx (X – µ ) est en mètre2. ) Cette valeur est connue comme la "distance de Mahalanobis". → 1 → d2(X)= 2 (X – → → → µ ) TCx–1(X – µ ) Il s'agit d'une distance euclidienne, normalisé par la covariance Cx. → Cette distance est bien définie, même si les composants de X n'ont pas les mêmes unités. (Ceci est souvent le cas). La loi Normale peut être visualisé par ses contours d'"équiprobabilité" x2 p(X | µ, C) Contours d'équi-probabilité x1 → Ces contours sont les contours de constant d2(X) La matrice C est positif et semi-definite. Nous allons nous limiter au cas ou C est positif et definite (C.-à-d. det(C ) = | C | > 0 si xi et x j sont statistiquement indépendants, σij2 = 0. → → Soit les événements E décrit par une vecteur de caractéristiques X : (E,X). Soit une ensemble aléatoire de M événements avec leurs caractéristiques. → Cet ensemble est dit l'ensemble d'entrainement (training set) {Xm} 9-15 Reconnaissance Bayesienne Séance 9 Pour un vecteur de D caractéristiques : M → → 1 µ ≡ E{X} = M ∑ Xm m=1 µµ1 = ...2 µD = E{X 1} E{X 2} ... E{X D} → Pour X entier, tel que pour chaque d ∈ [1, D], Xd ∈ [xdmin, xdmax] on peut démontrer que xDmax → 1 x1max µ d ≡ E{x d} = M ∑ .... ∑ h(x) xd x1=x1min xD=xDmin Pour x réel, µd ≡ E{x d} = ∫ ∫ ... ∫ ... n E{x 1} E{x 2} ... E{x n} → → p(x) ·x d dX Dans tous les cas : = → µ = E{X} 1 2 = Pour D dimensions, la covariance entre les variables xi et x j est estimée à partir → de M observations {X m} Soit → → → → → →T Cx ≡ E{ V V → µ → → → → T } ≡ E{[X – µ )(X – µ ) } V = X – E{X} = X – Ces coefficients composent une matrice de covariance. Cx Cx = ou σij2 = σ112 σ212 ... σD12 σ122 σ222 ... σD22 ... ... ... σ1D2 σ2D2 ... σDD2 1 M M ∑ (X im – µi)(X jm – µj) ) m=1 9-16 Reconnaissance Bayesienne Séance 9 9-17