CNAM Paris - RCP209 25/09/2013 Apprentissage, réseaux de neurones et modèles graphiques Cours : Michel Crucianu (PU) Fouad Badran (PU) MezianeYacoub (MCF) Marin Ferecatu (MCF) TP : Meziane Yacoub http://idf.pleiad.net/index.php 25/09/2013 RCP209 1 Objectifs de l’enseignement Méthodes décisionnelles basées sur l’apprentissage à partir des données : réseaux de neurones, Machines à Vecteurs Supports (SVM), méthodes (réseaux) graphiques ; leur utilisation dans des applications réelles Suite de l’UE RCP208 « Reconnaissance des formes et réseaux de neurones » → Fouille de données (data mining) : recherche de régularités ou de relations inconnues a priori dans de grands volumes de données → Reconnaissance des formes (pattern recognition) = (sens strict) identifier à quelle catégorie appartient une « forme » décrite par des données brutes 25/09/2013 M. Crucianu RCP209 2 1 CNAM Paris - RCP209 25/09/2013 Contenu de l’ensemble du cours Estimation de fonctions de densité (2, MC) Cartes auto-organisatrices appliquées aux données quantitatives, catégorielles et mixtes (2, MY) Perceptrons multicouches : fonctions d’erreur, maximum de vraisemblance, modèle multi-expert (1, MY) Apprentissage, généralisation, régularisation (1 MY, 1 MC) Machines à vecteurs supports (SVM), ingénierie des noyaux (2, MF) Chaînes de Markov cachées (2, FB) Introduction aux réseaux bayesiens (2, FB) 25/09/2013 RCP209 3 Travaux pratiques (TP) Contenu Estimation de fonctions de densité Cartes auto-organisatrices appliquées aux données quantitatives, catégorielles et mixtes Perceptrons multicouches Machines à vecteurs supports, ingénierie des noyaux Travail suivi sur le mini-projet Logiciel privilégié : Matlab (http://www.mathworks.fr) ou, comme alternative gratuite, Octave (http://www.gnu.org/software/octave/) D’autres solutions sont envisageables, suivant les préférences et les disponibilités des auditeurs 25/09/2013 M. Crucianu Weka (Java) : http://sourceforge.net/projects/weka/ Divers logiciels statistiques RCP209 4 2 CNAM Paris - RCP209 25/09/2013 Évaluation Note finale : moyenne entre Examen final Mini-projets réalisés en partie durant les TP (juin + septembre) 25/09/2013 Sujets proposés courant avril, choix arrêtés fin avril 3 étapes Compréhension du problème (fin mai) Analyse des données (fin juin) Finalisation du projet et envoi d’un bref mémoire (septembre) RCP209 5 Bibliographie générale Dreyfus, G., J. Martinez, M. Samuelides, M. Gordon, F. Badran, S. Thiria, Apprentissage statistique : Réseaux de neurones - Cartes topologiques - Machines à vecteurs supports. Éditions Eyrolles, 2008. Hand D. J., H. Mannila, P. Smyth. Principles of Data Mining. MIT Press, 2001. Hastie T., R. Tibshirani, J. H. Friedman. The Elements of Statistical Learning. Springer, 2003. Naïm P., P.-H. Wuillemin, Ph. Leray, O. Pourret, A. Becker. Réseaux bayesiens. Eyrolles, 2004. Schölkopf B., A. Smola. Learning with Kernels. MIT Press, 2002. 25/09/2013 M. Crucianu RCP209 6 3 CNAM Paris - RCP209 25/09/2013 Apprentissage, réseaux de neurones et modèles graphiques Chapitre 1 : Estimation de fonctions de densité Michel Crucianu (avec contributions de Jean-Philippe Tarel) http://cedric.cnam.fr/~crucianm/ml.html 25/09/2013 RCP209 7 Estimation de fonctions de densité Objectif : à partir d’observations, estimer la loi qui les a générées Soit D = { x1 , K , x n } un ensemble d’observations dans X L’observation x i est une réalisation de la variable aléatoire X i On considère que les variables X i , i = 1, K , n, sont indépendantes et identiquement distribuées (i.i.d.) suivant la densité de probabilité f ( X ) et on cherche à estimer cette densité à partir des observations Notation : la valeur de f ( X ) dans x ∈ X sera notée p ( x ) A quoi sert l’estimation de fonctions de densité ? Mettre en évidence des régularités présentes dans les données Décision bayesienne – approche générative : modéliser p ( x c j ) et, avec P (c j ) , obtenir les probabilités a posteriori P ( c j x ) 25/09/2013 M. Crucianu RCP209 8 4 CNAM Paris - RCP209 25/09/2013 Méthodes d’estimation de densités Non paramétriques : absence d’hypothèses sur les lois 1. Estimation par histogramme 2. Méthode des noyaux de Parzen 3. Méthode des kn plus proches voisins (non abordée dans la suite) Paramétriques : hypothèses sur la nature des lois (appartenance à une famille paramétrée) → estimation des paramètres de ces lois Maximisation de la vraisemblance Maximisation de l’a posteriori Modèles de mélanges Algorithme Expectation-Maximization (EM) EM appliqué aux mélanges gaussiens 25/09/2013 RCP209 9 Estimation par histogramme Sans hypothèses sur les lois qui régissent p (x ) k n Principe de l’estimation : fˆ (x ) ≅ (n obs. au total, k dans v ) v Division de l’espace en volumes v, comptage des observations v fixé, n augmente : l’estimation s’améliore (la variance diminue), mais représente une moyenne sur v n fixé, v diminue : la précision par rapport à x s’améliore, mais la qualité d’estimation se dégrade (la variance augmente) Conditions nécessaires : lim vn = 0 (précision) lim k n = ∞ (estimation) lim k n n = 0 (estimation) 25/09/2013 M. Crucianu n →∞ n →∞ k=5 k=2 vn n = 23 observations n →∞ RCP209 10 5 CNAM Paris - RCP209 25/09/2013 Exemple : loi uniforme, v = 1/10 n = 20 n = 200 n = 2 000 n = 20 000 n = 200 000 n = 2 000 000 25/09/2013 RCP209 11 Exemple : loi uniforme, n = 2 000 25/09/2013 M. Crucianu v = 1/10 v = 1/20 v = 1/40 v = 1/80 v = 1/160 v = 1/320 RCP209 12 6 CNAM Paris - RCP209 25/09/2013 Exemple d’application Détection de la chaussée 25/09/2013 (source : J.-Ph. Tarel, LCPC) RCP209 13 Méthode des fenêtres de Parzen Considérons d’abord des (hyper)cubes de coté hn (et dimension d ) Définissons une première fonction-fenêtre (ou noyau) ⎧1 si ∀j , u j < 1 2 ϕ (u ) = ⎨ ⎩ 0 sinon ( u j étant la composante j de u ) vn + hn ⎛ x − xi ⎞ → Pour l’hypercube ϕ ⎜ ⎟ =1 ⎝ hn ⎠ Le volume est vn = hnd observations Le nombre d’observations situées à l’intérieur est k n = 25/09/2013 M. Crucianu (d = 2) hn x Densité autour de x ? ϕ RCP209 n ⎛ x − xi ⎞ ⎟ hn ⎠ ∑ ϕ ⎜⎝ i =1 14 7 CNAM Paris - RCP209 25/09/2013 Méthode des fenêtres de Parzen (2) ⎛ → L’estimateur sera alors ⎜ fˆn (x ) = 1 fˆn (x ) = n hnd ⎛ x − xi ⎞ ϕ⎜ ⎟ ∑ i =1 ⎝ hn ⎠ n ⎝ kn n ⎞ ⎟ vn ⎠ → résultat global : somme des fenêtres centrées sur les observations ! qui possède hn (« largeur » de la fenêtre) comme seul paramètre 25/09/2013 RCP209 15 Méthode des fenêtres de Parzen (3) Conditions suffisantes pour que l’estimateur soit lui-même une densité : ϕ (u ) ≥ 0, ∀u ∈ R d ∫ ϕ (u ) d u =1 Rd L’approche peut être généralisée en considérant d’autres noyaux : 1 − uT u 1 2 e Normal (gaussien) : ϕ(u ) = (2π ) d 2 1 Cauchy : ϕ(u ) = π (1 + u T u ) 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 -5 -4 -3 -2 -1 0 1 2 3 4 5 -5 -4 -3 -2 -1 0 1 2 3 4 5 1.0 ( 1 2) e − 0.9 Exponentiel : ϕ(u ) = Triangulaire : ϕ(u ) = max { 0, 1 − u u 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 25/09/2013 M. Crucianu RCP209 } 0.0 16 8 CNAM Paris - RCP209 25/09/2013 Fenêtres de Parzen : exemple Densités obtenues avec un échantillon de 5 vecteurs de R et des noyaux gaussiens d’écart-types 2 (gauche), 1 (centre) et 0,5 (droite) 2 [Duda, Hart, Stork, 2001] La « largeur » du noyau a plus d’impact que le type de noyau ! Choix de la largeur : nombreuses méthodes, dont la validation croisée 25/09/2013 RCP209 17 Fenêtres de Parzen : convergence Conditions de convergence : p (x ) continue dans x sup ϕ(u ) < ∞ ( ϕ(u ) est bornée) u lim u u →∞ n →∞ n→∞ n , h n = h 0 ln n ) Nature de la convergence : Moyenne : lim pn (x ) = p(x ) Variance : lim σ n ( x ) = 0 n →∞ 25/09/2013 M. Crucianu ϕ(u ) = 0 lim h n = 0 et lim n h nd = 0 (par ex. h n = h 0 d 2 n →∞ RCP209 18 9 CNAM Paris - RCP209 25/09/2013 Estimation paramétrique On considère que la densité recherchée appartient à une famille paramétrée par des vecteurs θ ∈ Ω et on indique cette dépendance en écrivant p (x θ ) au lieu de p (x ) L’échantillon D étant issu de variables i.i.d., nous pouvons écrire n p (D θ ) = ∏ p (x i θ ) i =1 Comme fonction de θ , p (D θ ) est la vraisemblance (likelihood) de θ par rapport à l’échantillon D Il est en général plus facile de travailler avec le logarithme de la vraisemblance (log-likelihood) l (θ ) ≡ ln [ p (D θ ) ] = n ∑ ln [ p (x i =1 25/09/2013 i θ) ] RCP209 19 Un cas simple : loi normale 1D Considérons le cas suivant : X =R La famille paramétrée candidate est celle des lois normales N ( μ,σ ), donc θ = [ μ σ] T densités candidates échantillon R p (D θ ) 0 l (θ ) 25/09/2013 M. Crucianu RCP209 ( σ fixé) μ μ 20 10 CNAM Paris - RCP209 25/09/2013 Maximum de vraisemblance (MV) L’estimation θ̂ la plus en accord avec les observations D est celle qui correspond au maximum de la vraisemblance p (D θ ) Le logarithme en base e étant une fonction monotone croissante, le maximum de la vraisemblance est atteint pour le même θ̂ que le maximum de l (θ ) Exemple : pour le cas normal unidimensionnel considéré, n n 1 2 ln p(D θ ) = ∑ ln [ p ( xi θ ) ] = ∑ ⎡⎢− ln σ 2π − 2 ( xi − μ ) ⎤⎥ 2 σ ⎦ ⎣ i =1 i =1 donc en dérivant on obtient n ∂ ∑ i =1 ln [ p (xi θ ) ] 1 n = ∑ (xi − μ ) ∂μ σ 2 i =1 ∂ ∑ i =1 ln [ p (xi θ ) ] n ∂σ = − 25/09/2013 n 1 n 2 + ∑ (xi − μ ) σ σ3 i =1 RCP209 21 Maximum de vraisemblance (2) Les dérivées partielles sont nulles 1 σˆ 2 pour μˆ = i =1 i 1 n ∑ xi ( = x ) n i =1 et − n 1 n 2 + ∑ ( xi − μˆ ) = 0 σˆ σˆ 3 i =1 σˆ 2 = et 1 n 2 ∑ ( xi − μˆ ) n i =1 (on vérifie que la solution correspond bien à un maximum) Remarques : L’estimation pour μ est non biaisée (son espérance sur tous les échantillons de taille n est égale à la vraie valeur de μ ) 2 L’estimation de σ est en revanche biaisée (mais asymptotiquement non biaisée) ; une estimation non biaisée est 1 n 2 σˆ 2 = ∑ ( xi − μˆ ) n − 1 i =1 25/09/2013 M. Crucianu n ∑ ( x − μˆ ) = 0 RCP209 22 11 CNAM Paris - RCP209 25/09/2013 Explication du biais 1 n ∑ xi est une variable aléatoire n i =1 1 d’espérance E (x ) = E ( X ) et de variance V ( x ) = V ( X ) n 1 n 2 La variance d’un échantillon v = ∑ (xi − x ) est une variable n i =1 aléatoire d’espérance ⎛1 n 2⎞ ⎛1 n 2⎞ E (v ) = E ⎜ ∑ (xi − x ) ⎟ = E ⎜ ∑ xi ⎟ − E ( x 2 ) = E ( xi2 ) − E ( x 2 ) ⎠ ⎠ ⎝ n i =1 ⎝ n i =1 La moyenne d’un échantillon x = ( ) ( ) or V ( xi ) = E xi2 − E (xi ) , donc E xi2 = E ( X ) + V ( X ) ( ) 2 2 et E x 2 = E ( x ) + V ( x ) = E ( X ) + (1 n ) V ( X ) 2 2 par conséquent, 1 n −1 2 2 E (v ) = E ( X ) + V ( X ) − E ( X ) − V ( X ) = V (X ) n n 25/09/2013 ( ≠ V (X ) ) RCP209 23 Maximum de vraisemblance (3) Exemple 2 – lois normales multidimensionnelles : d X = R La famille paramétrée candidate est celle des lois normales N ( μ,Σ ) p (x θ ) = (2π) d 2 Σ e − 1 ( x −μ ) T Σ −1 ( x −μ ) 2 Dans ce cas, le maximum de la vraisemblance est donné par n 1 n ˆ = 1 ∑ ( x − μˆ )( x − μˆ ) T μˆ = ∑ x i et Σ i i n i =1 n i =1 Ici encore, l’estimation de μ est non biaisée mais celle de la matrice de variances-covariances Σ est biaisée (simplement asymptotiquement non biaisée) ; une estimation non biaisée est n ˆ = 1 ∑ ( x − μˆ )( x − μˆ ) T Σ i i n − 1 i =1 25/09/2013 M. Crucianu 1 RCP209 24 12 CNAM Paris - RCP209 25/09/2013 Maximum a posteriori (MAP) Si on connaît la densité de probabilité a priori pour θ, p (θ ) , il est préférable de choisir la solution θ̂ qui maximise la probabilité a posteriori p (θ D ) ∝ p (D θ ) p (θ ) (comme fonction de θ , non normalisée) p (D θ ) θ p(θ ) θ p (θ D ) θ 25/09/2013 RCP209 25 Modèles de mélange On s’intéresse à des densités de probabilité qui sont des mélanges additifs de plusieurs densités décrites par des lois élémentaires (par exemple, lois normales multidimensionnelles) m p (x α, θ ) = ∑ α j p j (x θ j ) j =1 avec m : nombre de composantes du mélange p j ( x θ j ) : densité qui définit une composante (supposée appartenir à une famille paramétrée par θ j ) α j : coefficients de mélange tels que ∑ j =1 α j = 1 α : représentation vectorielle des coefficients de mélange θ : vecteur qui représente tous les θ j m 25/09/2013 M. Crucianu RCP209 26 13 CNAM Paris - RCP209 25/09/2013 Exemple d’application : compression 256 couleurs 128 couleurs 64 couleurs (source : J.-Ph. Tarel, LCPC) 25/09/2013 RCP209 27 Exemple d’application : compression 32 couleurs 16 couleurs 8 couleurs 32 couleurs (source : J.-Ph. Tarel, LCPC) 25/09/2013 M. Crucianu RCP209 28 14 CNAM Paris - RCP209 25/09/2013 Modèles de mélange : estimation MV On considère D = { x1 , K , x n } un ensemble d’observations de R d issues de variables i.i.d. suivant la densité de probabilité p (x α, θ ) On cherche à trouver αˆ , θˆ qui maximisent la vraisemblance ( ) n p (D α, θ ) = ∏ p (x i α, θ ) i =1 À partir de l’expression de p (x α, θ ) , on obtient l’expression à maximiser (ici, le logarithme de la vraisemblance) n ⎡m ⎤ m ln p (D α, θ ) = ∑ ln ⎢∑ α j p j x i θ j ⎥ sous la contrainte ∑ j =1 α j = 1 i =1 ⎣ j =1 ⎦ En raison de la présence d’une somme sous le logarithme, on ne peut pas obtenir de solution analytique à ce problème de maximisation, il faut donc avoir recours à des méthodes d’optimisation itérative pour déterminer αˆ , θˆ ( ) ( ) 25/09/2013 RCP209 29 Expectation-Maximization Algorithme itératif, introduit dans [DLR77] Une solution au problème général de l’estimation MV des paramètres d’une distribution à partir de données incomplètes ou présentant des valeurs manquantes Pré-requis : considérons D = {Do ,Dm } Do est l’ensemble des données observées Dm correspond aux données manquantes z sera associé à D, x à Do et y à Dm Données suivant la densité 25/09/2013 M. Crucianu p (z θ ) = p (x, y θ ) ∝ p (y x, θ ) p (x θ ) ∝ p (x y, θ ) p (y θ ) RCP209 30 15 CNAM Paris - RCP209 25/09/2013 Expectation-Maximization (2) On cherche le paramètre θ* qui maximise la vraisemblance p (Do θ ) ou son logarithme ln p (Do θ ) Question : comment maximiser la vraisemblance p (Do θ ) quand les données Dm sont manquantes ? Si Y suit une densité q (y ), ∫ q (y ) d y = 1 et on peut écrire (∀θ, ∀q ) y ln p (Do θ ) = ln p (Do θ ) ∫ q (y ) d y = p (Do , y θ ) ∝ p (y Do , θ ) p (Do θ ) ∝ y ∫ q (y ) ln p (D θ) d y o y ∫ q (y ) [ ln p (D , y θ) − ln p (y D , θ) − ln q (y ) + ln q (y ) ] d y p (D , y θ ) q (y ) ∫ q (y ) ln q (y ) d y + ∫ q (y ) ln p (y D , θ) d y o o y = o y 1 444424444 3 l ( q ,θ ) 25/09/2013 RCP209 o y 1 4444244 44 3 KL ( q ( y ) p (y Do ,θ ) ) 31 Expectation-Maximization (3) Comme KL ( q (y ) p (y Do , θ ) ) ≥ 0 , ln p (Do θ ) ≥ l (q, θ ) → Algorithme EM : Initialisation : choix de θ Itérer 0 ( l (q, θ ) t en considérant q (y ) ≈ p y Do , θ t t +1 Étape M : identifier θ maximisant l (q, θ ) t Étape E : calculer ) jusqu’à la convergence ln p (Do θ ) (inconnue !) l (q, θ ) t +1 l (q, θ ) t l (q, θ ) t −1 25/09/2013 M. Crucianu RCP209 θ t +2 t θ t −1 θ t +1 θ θ 32 16 CNAM Paris - RCP209 25/09/2013 Expectation-Maximization (4) ( ) Déterminer l (q, θ ) avec q (y ) fixé à p y Do , θ t revient à calculer Q ( θ; θ t )= = EDm [ ln p (Do ,Dm θ ) Do , θ t ] ∫ [ ln p (D , y θ) ] p ( y D , θ ) d y t o o y Difficulté : présence en général d’extrema locaux vers lesquels l’algorithme peut converger (plutôt que vers un maximum global) Types d’utilisations de EM : Valeurs et/ou variables manquantes dans les données (exemple : difficultés d’observation) Introduction de variables cachées, dont les valeurs manquent, permettant de simplifier l’expression de la vraisemblance ( l (q, θ ) au lieu de ln p Do θ ) et donc la détermination d’un maximum ( ) 25/09/2013 RCP209 33 EM pour modèles de mélange Données manquantes {Yi }i =1 : y ∈ {1, K, m }, yi = j si l’observation x i a été générée par la composante j du mélange α Le vecteur des paramètres à identifier est dans ce cas ⎡ ⎤ ⎢⎣θ ⎥⎦ n Le caractère i.i.d. des variables dont sont issues les observations implique ln p (Do ,Dm α, θ ) = ∑ i =1 ln p (x i , yi α, θ ) n et, pour y = ( y1 ,K , yn ) une instance des données non observées, P ( y Do , α t , θ t ) = ∏ i =1 P ( yi x i , α t , θ t ) n Enfin, les valeurs manquantes étant dans un ensemble discret, ( n n Q ( α, θ; α t , θ t ) = ∑ ⎡ ∑ i =1 ln p ( x i , yi α, θ ) ⎤ ∏ i =1 P yi x i , α t , θ t ⎢ ⎥ ⎣ ⎦ y 25/09/2013 M. Crucianu RCP209 ) 34 17 CNAM Paris - RCP209 25/09/2013 EM pour modèles de mélange (2) Par la définition des données manquantes, p (x i , yi α, θ ) = p (x i yi , α, θ ) P ( yi α, θ ) = α yi p yi (x i θ yi ) Aussi, la distribution de la variable manquante est donnée par α yt i p yi (x i θ yt i ) P ( yi x i , α t , θ t ) = ∑ m j =1 α tj p j (x i θ tj ) Nous pouvons ainsi obtenir l’expression de Q ( α, θ; α t , θ t ), à maximiser par la méthode des multiplicateurs de Lagrange tenant m compte de la contrainte ∑ j =1 α j = 1 25/09/2013 RCP209 35 EM pour mélange gaussien Considérons des composantes lois normales multidimensionnelles p j (x μ j , Σ j ) = 1 ( 2π ) d 2 Σ j 12 e − 1 ( x −μ j ) T Σ −j1 ( x −μ j ) 2 Données manquantes : {Yi }i =1 : y ∈ {1, K, m }, yi = j si l’observation xi a été générée par la composante j du mélange Logarithme de la vraisemblance totale ( θ correspond aux μ j , Σ j ) : n n n i =1 i =1 ln p (Do , Dm α, θ ) = ∑ ln p (x i , yi α, θ ) = ∑ ln α yi p yi (x i θ yi ) Espérance du logarithme de la vraisemblance : ⎡ Q ( α, θ; α t , θ t ) = ∑ ⎢ y ⎣ 25/09/2013 M. Crucianu α yt i p yi (x i θ yt i ) n ⎤ ( ) ln x θ p α ∑ i =1 yi yi i yi ⎥⎦ ∏ i =1 m α t p (x θ t ) ∑ j j i j n j =1 RCP209 36 18 CNAM Paris - RCP209 25/09/2013 EM pour mélange gaussien (2) Après quelques calculs on obtient m n m n Q ( α, θ; α t , θ t ) = ∑∑ P ( j x i , α t , θ t ) ln α j + ∑∑ P ( j x i , α t , θ t ) ln p j (x i θ j ) j =1 i =1 j =1 i =1 t t t t avec P( j x i , α , θ ) = α j p j (x i θ j ) l =1 α lt pl (x i θlt ) Les équations de mise à jour résultantes sont α t +1 j t +1 j ∑ = n i =1 Exemples : [Akaho] ∑ = ∑ n 1 n = ∑ P( j x i , α t , θ t ) n i =1 Σ ∑ m μ t +1 j i =1 xi P( j xi , α t , θ t ) n i =1 P( j xi , α t , θ t ) P( j x i , α t , θ t )(x i − μ jt +1 )(x i − μ tj +1 ) ∑ 25/09/2013 n i =1 T P( j xi , α t , θ t ) RCP209 37 Exemple : 2 gaussiennes 2D après 1 itération après 4 itérations après > 5 itérations 25/09/2013 M. Crucianu RCP209 [Akaho] 38 19 CNAM Paris - RCP209 25/09/2013 Exemple : données peu structurées Résultats très différents obtenus avec 4 initialisations différentes 25/09/2013 [Akaho] RCP209 39 Mélanges et classification automatique Si on considère que chaque composante d’un mélange représente un groupe (cluster), trouver les paramètres du modèle permet d’identifier les groupes ( x i sera affecté à la composante j * = arg max P j x i , αˆ , θˆ ) et de modéliser chaque groupe Approche CML (Classification Maximum Likelihood) : on introduit des vecteurs-indicateurs q i , avec qij = 1 si x i est généré par la composante j et qij = 0 sinon (voir aussi [CG92]) Centres mobiles et EM pour modèles de mélange : j ( ) Mélange de lois normales multidimensionnelles avec α j = 1 n , ∀j , matrices de variances-covariances identité et P j x i , αˆ , θˆ = 1 si et seulement si x i est plus proche de μ j ( ) ⇒ L’estimation des paramètres du modèle (seuls restent les μ j ) se réduit à l’algorithme de classification par centres mobiles 25/09/2013 M. Crucianu RCP209 40 20 CNAM Paris - RCP209 25/09/2013 Choix du nombre de composantes Difficulté : pour un modèle de mélange, le maximum de la vraisemblance augmente en général avec le nombre de composantes, la vraisemblance ne peut donc pas servir au choix du nombre de composantes (sélection de modèle) Types de méthodes (voir la synthèse [OBM05]) : Tests d’hypothèses : inspirés par LRTS (likelihood ratio test statistic, ne s’applique pas tel quel) pour m composantes vs. m+1 composantes Critères d’information : pénaliser proportionnellement au nombre de paramètres (par exemple AIC, BIC) Évaluer le degré de séparation entre composantes (les composantes peu séparées seront fusionnées) : mesure d’entropie (par exemple [CS96]), critères issus de la classification floue Modifications de EM (par exemple [FJ02]) pour estimer le nombre de composantes en même temps que les paramètres 25/09/2013 RCP209 41 Nombre trop élevé ? Nombre adéquat 25/09/2013 Nombre trop faible ? Exemple : nombre de composantes RCP209 42 [Akaho] M. Crucianu 21 CNAM Paris - RCP209 25/09/2013 Paramétrique vs. non paramétrique Avantages des méthodes paramétriques : Si les hypothèses sont valides, bonne estimation avec des échantillons de taille comparativement faible Après construction du modèle, faible coût de l’estimation de la densité en un point précis Avantages des méthodes non paramétriques : Généralité due à l’absence d’hypothèses sur le nombre et les types de lois Convergence garantie vers la vraie densité… si l’échantillon est suffisant ! Paramètre unique… mais difficile à choisir ! De plus, une même valeur peut ne pas convenir à l’ensemble du domaine 25/09/2013 RCP209 43 Références [Akaho] Akaho S. Applet mélange de gaussiennes. (actuellement sur http://cedric.cnam.fr/~crucianm/appletMixMod.html) [CG92] G. Celeux, G. Govaert. A classification EM algorithm for clustering and two stochastic versions. Computational Statistics & Data Analysis, 14, 315-332, 1992. [CS96] G. Celeux, G. Soromenho. An Entropy Criterion for Assessing the Number of Clusters in a Mixture Model. Classification Journal, vol. 13, pp. 195-212, 1996. [DLR77] A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, Series B, vol. 39, 1:1-38, 1977. [FJ02] Figueiredo, M. A. and Jain, A. K. 2002. Unsupervised Learning of Finite Mixture Models. IEEE Trans. Pattern Anal. Mach. Intell. 24, 3 (Mar. 2002), 381-396. [OBM05] A. Oliveira-Brochado, F. V. Martins. Assessing the Number of Components in Mixture Models: a Review. FEP Working Papers 194, Universidade do Porto, 2005. 25/09/2013 M. Crucianu RCP209 44 22