Apprentissage, réseaux de neurones et modèles graphiques

publicité
CNAM Paris - RCP209
25/09/2013
Apprentissage, réseaux de
neurones et modèles graphiques
Cours : Michel Crucianu (PU)
Fouad Badran (PU)
MezianeYacoub (MCF)
Marin Ferecatu (MCF)
TP : Meziane Yacoub
http://idf.pleiad.net/index.php
25/09/2013
RCP209
1
Objectifs de l’enseignement
„
Méthodes décisionnelles basées sur l’apprentissage à partir des
données : réseaux de neurones, Machines à Vecteurs Supports
(SVM), méthodes (réseaux) graphiques ; leur utilisation dans des
applications réelles
‹
Suite de l’UE RCP208 « Reconnaissance des formes et réseaux de
neurones »
→ Fouille de données (data mining) : recherche de régularités ou de
relations inconnues a priori dans de grands volumes de données
→ Reconnaissance des formes (pattern recognition) = (sens strict)
identifier à quelle catégorie appartient une « forme » décrite par
des données brutes
25/09/2013
M. Crucianu
RCP209
2
1
CNAM Paris - RCP209
25/09/2013
Contenu de l’ensemble du cours
„
Estimation de fonctions de densité (2, MC)
„
Cartes auto-organisatrices appliquées aux données quantitatives,
catégorielles et mixtes (2, MY)
„
Perceptrons multicouches : fonctions d’erreur, maximum de
vraisemblance, modèle multi-expert (1, MY)
„
Apprentissage, généralisation, régularisation (1 MY, 1 MC)
„
Machines à vecteurs supports (SVM), ingénierie des noyaux (2, MF)
„
Chaînes de Markov cachées (2, FB)
„
Introduction aux réseaux bayesiens (2, FB)
25/09/2013
RCP209
3
Travaux pratiques (TP)
„
„
Contenu
‹
Estimation de fonctions de densité
‹
Cartes auto-organisatrices appliquées aux données quantitatives, catégorielles
et mixtes
‹
Perceptrons multicouches
‹
Machines à vecteurs supports, ingénierie des noyaux
‹
Travail suivi sur le mini-projet
Logiciel privilégié : Matlab (http://www.mathworks.fr) ou, comme
alternative gratuite, Octave (http://www.gnu.org/software/octave/)
‹
D’autres solutions sont envisageables, suivant les préférences et les
disponibilités des auditeurs
25/09/2013
M. Crucianu
„
Weka (Java) : http://sourceforge.net/projects/weka/
„
Divers logiciels statistiques
RCP209
4
2
CNAM Paris - RCP209
25/09/2013
Évaluation
„
Note finale : moyenne entre
‹
Examen final
‹
Mini-projets réalisés en partie durant les TP (juin + septembre)
25/09/2013
„
Sujets proposés courant avril, choix arrêtés fin avril
„
3 étapes
‹
Compréhension du problème (fin mai)
‹
Analyse des données (fin juin)
‹
Finalisation du projet et envoi d’un bref mémoire (septembre)
RCP209
5
Bibliographie générale
Dreyfus, G., J. Martinez, M. Samuelides, M. Gordon, F. Badran, S.
Thiria, Apprentissage statistique : Réseaux de neurones - Cartes
topologiques - Machines à vecteurs supports. Éditions Eyrolles,
2008.
Hand D. J., H. Mannila, P. Smyth. Principles of Data Mining. MIT
Press, 2001.
Hastie T., R. Tibshirani, J. H. Friedman. The Elements of Statistical
Learning. Springer, 2003.
Naïm P., P.-H. Wuillemin, Ph. Leray, O. Pourret, A. Becker. Réseaux
bayesiens. Eyrolles, 2004.
Schölkopf B., A. Smola. Learning with Kernels. MIT Press, 2002.
25/09/2013
M. Crucianu
RCP209
6
3
CNAM Paris - RCP209
25/09/2013
Apprentissage, réseaux de
neurones et modèles graphiques
Chapitre 1 : Estimation de fonctions de densité
Michel Crucianu
(avec contributions de Jean-Philippe Tarel)
http://cedric.cnam.fr/~crucianm/ml.html
25/09/2013
RCP209
7
Estimation de fonctions de densité
„
Objectif : à partir d’observations, estimer la loi qui les a générées
‹ Soit D = { x1 , K , x n } un ensemble d’observations dans X
‹ L’observation x i est une réalisation de la variable aléatoire X i
‹ On considère que les variables X i , i = 1, K , n, sont indépendantes
et identiquement distribuées (i.i.d.) suivant la densité de probabilité f ( X )
et on cherche à estimer cette densité à partir des observations
‹
„
Notation : la valeur de f ( X ) dans x ∈ X sera notée p ( x )
A quoi sert l’estimation de fonctions de densité ?
‹
Mettre en évidence des régularités
présentes dans les données
‹
Décision bayesienne – approche générative :
modéliser p ( x c j ) et, avec P (c j ) , obtenir
les probabilités a posteriori P ( c j x )
25/09/2013
M. Crucianu
RCP209
8
4
CNAM Paris - RCP209
25/09/2013
Méthodes d’estimation de densités
„
Non paramétriques : absence d’hypothèses sur les lois
1. Estimation par histogramme
2. Méthode des noyaux de Parzen
3. Méthode des kn plus proches voisins (non abordée dans la suite)
„
Paramétriques : hypothèses sur la nature des lois (appartenance à
une famille paramétrée) → estimation des paramètres de ces lois
‹
Maximisation de la vraisemblance
‹
Maximisation de l’a posteriori
‹
Modèles de mélanges
‹
Algorithme Expectation-Maximization (EM)
‹
EM appliqué aux mélanges gaussiens
25/09/2013
RCP209
9
Estimation par histogramme
„
„
Sans hypothèses sur les lois qui régissent p (x )
k n
Principe de l’estimation : fˆ (x ) ≅
(n obs. au total, k dans v )
v
‹
‹
‹
„
Division de l’espace en volumes v, comptage des observations
v fixé, n augmente : l’estimation s’améliore (la variance diminue), mais
représente une moyenne sur v
n fixé, v diminue : la précision par rapport à x s’améliore, mais la
qualité d’estimation se dégrade (la variance augmente)
Conditions nécessaires :
‹
lim vn = 0
(précision)
‹
lim k n = ∞
(estimation)
‹
lim k n n = 0 (estimation)
25/09/2013
M. Crucianu
n →∞
n →∞
k=5
k=2
vn
n = 23
observations
n →∞
RCP209
10
5
CNAM Paris - RCP209
25/09/2013
Exemple : loi uniforme, v = 1/10
n = 20
n = 200
n = 2 000
n = 20 000
n = 200 000
n = 2 000 000
25/09/2013
RCP209
11
Exemple : loi uniforme, n = 2 000
25/09/2013
M. Crucianu
v = 1/10
v = 1/20
v = 1/40
v = 1/80
v = 1/160
v = 1/320
RCP209
12
6
CNAM Paris - RCP209
25/09/2013
Exemple d’application
„
Détection de la chaussée
25/09/2013
(source : J.-Ph. Tarel, LCPC)
RCP209
13
Méthode des fenêtres de Parzen
„
Considérons d’abord des (hyper)cubes de coté hn (et dimension d )
„
Définissons une première fonction-fenêtre (ou noyau)
⎧1 si ∀j , u j < 1 2
ϕ (u ) = ⎨
⎩ 0 sinon
( u j étant la composante j de u )
„
vn
+ hn
⎛ x − xi ⎞
→ Pour l’hypercube ϕ ⎜
⎟ =1
⎝ hn ⎠
‹ Le volume est
vn = hnd
observations
Le nombre d’observations situées à l’intérieur est k n =
25/09/2013
M. Crucianu
(d = 2)
hn
x
Densité autour de x ?
‹
ϕ
RCP209
n
⎛ x − xi ⎞
⎟
hn ⎠
∑ ϕ ⎜⎝
i =1
14
7
CNAM Paris - RCP209
25/09/2013
Méthode des fenêtres de Parzen (2)
⎛
→ L’estimateur sera alors ⎜ fˆn (x ) =
1
fˆn (x ) =
n hnd
⎛ x − xi ⎞
ϕ⎜
⎟
∑
i =1
⎝ hn ⎠
n
⎝
kn n ⎞
⎟
vn ⎠
→ résultat global : somme des fenêtres
centrées sur les observations !
qui possède hn (« largeur » de la fenêtre) comme seul
paramètre
25/09/2013
RCP209
15
Méthode des fenêtres de Parzen (3)
„
Conditions suffisantes pour que l’estimateur soit lui-même une
densité :
‹
ϕ (u ) ≥ 0, ∀u ∈ R d
∫ ϕ (u ) d u
‹
=1
Rd
„
L’approche peut être généralisée en considérant d’autres noyaux :
1
− uT u
1
2
e
‹ Normal (gaussien) : ϕ(u ) =
(2π ) d 2
1
‹ Cauchy : ϕ(u ) =
π (1 + u T u )
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
-5
-4
-3
-2
-1
0
1
2
3
4
5
-5
-4
-3
-2
-1
0
1
2
3
4
5
1.0
( 1 2) e −
0.9
‹
Exponentiel : ϕ(u ) =
‹
Triangulaire : ϕ(u ) = max { 0, 1 − u
u
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
25/09/2013
M. Crucianu
RCP209
}
0.0
16
8
CNAM Paris - RCP209
25/09/2013
Fenêtres de Parzen : exemple
„
Densités obtenues avec un échantillon de 5 vecteurs de R et des noyaux
gaussiens d’écart-types 2 (gauche), 1 (centre) et 0,5 (droite)
2
[Duda, Hart, Stork, 2001]
„
„
La « largeur » du noyau a plus d’impact que le type de noyau !
Choix de la largeur : nombreuses méthodes, dont la validation croisée
25/09/2013
RCP209
17
Fenêtres de Parzen : convergence
„
Conditions de convergence :
‹
p (x ) continue dans x
‹
sup ϕ(u ) < ∞ ( ϕ(u ) est bornée)
u
lim u
‹
u →∞
n →∞
n→∞
n , h n = h 0 ln n )
Nature de la convergence :
‹
Moyenne : lim pn (x ) = p(x )
‹
Variance : lim σ n ( x ) = 0
n →∞
25/09/2013
M. Crucianu
ϕ(u ) = 0
lim h n = 0 et lim n h nd = 0 (par ex. h n = h 0
‹
„
d
2
n →∞
RCP209
18
9
CNAM Paris - RCP209
25/09/2013
Estimation paramétrique
„
On considère que la densité recherchée appartient à une famille
paramétrée par des vecteurs θ ∈ Ω et on indique cette
dépendance en écrivant p (x θ ) au lieu de p (x )
„
L’échantillon D étant issu de variables i.i.d., nous pouvons écrire
n
p (D θ ) = ∏ p (x i θ )
i =1
„
Comme fonction de θ , p (D θ ) est la vraisemblance (likelihood)
de θ par rapport à l’échantillon D
„
Il est en général plus facile de travailler avec le logarithme de la
vraisemblance (log-likelihood)
l (θ ) ≡ ln [ p (D θ ) ] =
n
∑ ln [ p (x
i =1
25/09/2013
i
θ) ]
RCP209
19
Un cas simple : loi normale 1D
„
Considérons le cas suivant :
‹
X =R
‹
La famille paramétrée candidate est celle des lois normales N ( μ,σ ),
donc θ = [ μ
σ]
T
densités
candidates
échantillon
R
p (D θ )
0
l (θ )
25/09/2013
M. Crucianu
RCP209
( σ fixé)
μ
μ
20
10
CNAM Paris - RCP209
25/09/2013
Maximum de vraisemblance (MV)
„
„
„
L’estimation θ̂ la plus en accord avec les observations D est
celle qui correspond au maximum de la vraisemblance p (D θ )
Le logarithme en base e étant une fonction monotone croissante,
le maximum de la vraisemblance est atteint pour le même θ̂ que le
maximum de l (θ )
Exemple : pour le cas normal unidimensionnel considéré,
n
n
1
2
ln p(D θ ) = ∑ ln [ p ( xi θ ) ] = ∑ ⎡⎢− ln σ 2π − 2 ( xi − μ ) ⎤⎥
2
σ
⎦
⎣
i =1
i =1
donc en dérivant on obtient
n
∂ ∑ i =1 ln [ p (xi θ ) ]
1 n
=
∑ (xi − μ )
∂μ
σ 2 i =1
∂ ∑ i =1 ln [ p (xi θ ) ]
n
∂σ
= −
25/09/2013
n 1 n
2
+
∑ (xi − μ )
σ σ3 i =1
RCP209
21
Maximum de vraisemblance (2)
„
Les dérivées partielles sont nulles
1
σˆ 2
pour
μˆ =
„
i =1
i
1 n
∑ xi ( = x )
n i =1
et
−
n 1 n
2
+ ∑ ( xi − μˆ ) = 0
σˆ σˆ 3 i =1
σˆ 2 =
et
1 n
2
∑ ( xi − μˆ )
n i =1
(on vérifie que la solution correspond bien à un maximum)
Remarques :
‹ L’estimation pour μ est non biaisée (son espérance sur tous les
échantillons de taille n est égale à la vraie valeur de μ )
2
‹ L’estimation de σ est en revanche biaisée (mais asymptotiquement
non biaisée) ; une estimation non biaisée est
1 n
2
σˆ 2 =
∑ ( xi − μˆ )
n − 1 i =1
25/09/2013
M. Crucianu
n
∑ ( x − μˆ ) = 0
RCP209
22
11
CNAM Paris - RCP209
25/09/2013
Explication du biais
„
„
1 n
∑ xi est une variable aléatoire
n i =1
1
d’espérance E (x ) = E ( X ) et de variance V ( x ) = V ( X )
n
1 n
2
La variance d’un échantillon v = ∑ (xi − x ) est une variable
n i =1
aléatoire d’espérance
⎛1 n 2⎞
⎛1 n
2⎞
E (v ) = E ⎜ ∑ (xi − x ) ⎟ = E ⎜ ∑ xi ⎟ − E ( x 2 ) = E ( xi2 ) − E ( x 2 )
⎠
⎠
⎝ n i =1
⎝ n i =1
La moyenne d’un échantillon x =
( )
( )
or V ( xi ) = E xi2 − E (xi ) , donc E xi2 = E ( X ) + V ( X )
( )
2
2
et E x 2 = E ( x ) + V ( x ) = E ( X ) + (1 n ) V ( X )
2
2
par conséquent,
1
n −1
2
2
E (v ) = E ( X ) + V ( X ) − E ( X ) − V ( X ) =
V (X )
n
n
25/09/2013
( ≠ V (X ) )
RCP209
23
Maximum de vraisemblance (3)
„
Exemple 2 – lois normales multidimensionnelles :
d
‹ X = R
‹
La famille paramétrée candidate est celle des lois normales N ( μ,Σ )
p (x θ ) =
(2π) d 2
Σ
e
−
1
( x −μ ) T Σ −1 ( x −μ )
2
„
Dans ce cas, le maximum de la vraisemblance est donné par
n
1 n
ˆ = 1 ∑ ( x − μˆ )( x − μˆ ) T
μˆ = ∑ x i et Σ
i
i
n i =1
n i =1
„
Ici encore, l’estimation de μ est non biaisée mais celle de la
matrice de variances-covariances Σ est biaisée (simplement
asymptotiquement non biaisée) ; une estimation non biaisée est
n
ˆ = 1 ∑ ( x − μˆ )( x − μˆ ) T
Σ
i
i
n − 1 i =1
25/09/2013
M. Crucianu
1
RCP209
24
12
CNAM Paris - RCP209
25/09/2013
Maximum a posteriori (MAP)
„
Si on connaît la densité de probabilité a priori pour θ, p (θ ) , il est
préférable de choisir la solution θ̂ qui maximise la probabilité a
posteriori p (θ D ) ∝ p (D θ ) p (θ )
(comme fonction de θ ,
non normalisée)
p (D θ )
θ
p(θ )
θ
p (θ D )
θ
25/09/2013
RCP209
25
Modèles de mélange
„
On s’intéresse à des densités de probabilité qui sont des mélanges
additifs de plusieurs densités décrites par des lois élémentaires
(par exemple, lois normales multidimensionnelles)
m
p (x α, θ ) = ∑ α j p j (x θ j )
j =1
avec
m : nombre de composantes du mélange
p j ( x θ j ) : densité qui définit une composante (supposée appartenir à
une famille paramétrée par θ j )
α j : coefficients de mélange tels que ∑ j =1 α j = 1
α : représentation vectorielle des coefficients de mélange
θ : vecteur qui représente tous les θ j
m
25/09/2013
M. Crucianu
RCP209
26
13
CNAM Paris - RCP209
25/09/2013
Exemple d’application : compression
256 couleurs
128 couleurs
64 couleurs
(source : J.-Ph. Tarel, LCPC)
25/09/2013
RCP209
27
Exemple d’application : compression
32 couleurs
16 couleurs
8 couleurs
32 couleurs
(source : J.-Ph. Tarel, LCPC)
25/09/2013
M. Crucianu
RCP209
28
14
CNAM Paris - RCP209
25/09/2013
Modèles de mélange : estimation MV
„
„
On considère D = { x1 , K , x n } un ensemble d’observations de R d
issues de variables i.i.d. suivant la densité de probabilité p (x α, θ )
On cherche à trouver αˆ , θˆ qui maximisent la vraisemblance
( )
n
p (D α, θ ) = ∏ p (x i α, θ )
i =1
„
À partir de l’expression de p (x α, θ ) , on obtient l’expression à
maximiser (ici, le logarithme de la vraisemblance)
n
⎡m
⎤
m
ln p (D α, θ ) = ∑ ln ⎢∑ α j p j x i θ j ⎥ sous la contrainte ∑ j =1 α j = 1
i =1
⎣ j =1
⎦
En raison de la présence d’une somme sous le logarithme, on ne
peut pas obtenir de solution analytique à ce problème de
maximisation, il faut donc avoir recours à des méthodes
d’optimisation itérative pour déterminer αˆ , θˆ
(
„
)
( )
25/09/2013
RCP209
29
Expectation-Maximization
„
„
„
Algorithme itératif, introduit dans [DLR77]
Une solution au problème général de l’estimation MV des
paramètres d’une distribution à partir de données incomplètes ou
présentant des valeurs manquantes
Pré-requis : considérons D = {Do ,Dm }
‹
Do est l’ensemble des données observées
‹
Dm correspond aux données manquantes
‹
z sera associé à D, x à Do et y à Dm
‹
Données suivant la densité
25/09/2013
M. Crucianu
p (z θ ) = p (x, y θ ) ∝ p (y x, θ ) p (x θ )
∝ p (x y, θ ) p (y θ )
RCP209
30
15
CNAM Paris - RCP209
25/09/2013
Expectation-Maximization (2)
„
On cherche le paramètre θ* qui maximise la vraisemblance
p (Do θ ) ou son logarithme ln p (Do θ )
„
Question : comment maximiser la vraisemblance p (Do θ )
quand les données Dm sont manquantes ?
„
Si Y suit une densité q (y ), ∫ q (y ) d y = 1 et on peut écrire (∀θ, ∀q )
y
ln p (Do θ ) = ln p (Do θ ) ∫ q (y ) d y =
p (Do , y θ ) ∝ p (y Do , θ ) p (Do θ )
∝
y
∫ q (y ) ln p (D θ) d y
o
y
∫ q (y ) [ ln p (D , y θ) − ln p (y D , θ) − ln q (y ) + ln q (y ) ] d y
p (D , y θ )
q (y )
∫ q (y ) ln q (y ) d y + ∫ q (y ) ln p (y D , θ) d y
o
o
y
=
o
y
1
444424444
3
l ( q ,θ )
25/09/2013
RCP209
o
y
1
4444244
44
3
KL ( q ( y ) p (y Do ,θ ) )
31
Expectation-Maximization (3)
„
Comme KL ( q (y ) p (y Do , θ ) ) ≥ 0 , ln p (Do θ ) ≥ l (q, θ )
→ Algorithme EM :
Initialisation : choix de θ
Itérer
0
(
l (q, θ ) t en considérant q (y ) ≈ p y Do , θ t
t +1
Étape M : identifier θ
maximisant l (q, θ ) t
Étape E : calculer
)
jusqu’à la convergence
ln p (Do θ )
(inconnue !)
l (q, θ ) t +1
l (q, θ ) t
l (q, θ ) t −1
25/09/2013
M. Crucianu
RCP209
θ t +2
t θ t −1
θ t +1 θ
θ
32
16
CNAM Paris - RCP209
25/09/2013
Expectation-Maximization (4)
„
(
)
Déterminer l (q, θ ) avec q (y ) fixé à p y Do , θ t revient à calculer
Q ( θ; θ
t
)=
=
EDm [ ln p (Do ,Dm θ ) Do , θ
t
]
∫ [ ln p (D , y θ) ] p ( y D , θ ) d y
t
o
o
y
„
Difficulté : présence en général d’extrema locaux vers lesquels
l’algorithme peut converger (plutôt que vers un maximum global)
„
Types d’utilisations de EM :
‹
Valeurs et/ou variables manquantes dans les données (exemple :
difficultés d’observation)
‹
Introduction de variables cachées, dont les valeurs manquent,
permettant de simplifier l’expression de la vraisemblance ( l (q, θ )
au lieu de ln p Do θ ) et donc la détermination d’un maximum
(
)
25/09/2013
RCP209
33
EM pour modèles de mélange
„
„
„
Données manquantes {Yi }i =1 : y ∈ {1, K, m }, yi = j si l’observation x i
a été générée par la composante j du mélange
α
Le vecteur des paramètres à identifier est dans ce cas ⎡ ⎤
⎢⎣θ ⎥⎦
n
Le caractère i.i.d. des variables dont sont issues les observations
implique ln p (Do ,Dm α, θ ) = ∑ i =1 ln p (x i , yi α, θ )
n
et, pour y = ( y1 ,K , yn ) une instance des données non observées,
P ( y Do , α t , θ t ) = ∏ i =1 P ( yi x i , α t , θ t )
n
„
Enfin, les valeurs manquantes étant dans un ensemble discret,
(
n
n
Q ( α, θ; α t , θ t ) = ∑ ⎡ ∑ i =1 ln p ( x i , yi α, θ ) ⎤ ∏ i =1 P yi x i , α t , θ t
⎢
⎥
⎣
⎦
y
25/09/2013
M. Crucianu
RCP209
)
34
17
CNAM Paris - RCP209
25/09/2013
EM pour modèles de mélange (2)
„
Par la définition des données manquantes,
p (x i , yi α, θ ) = p (x i yi , α, θ ) P ( yi α, θ ) = α yi p yi (x i θ yi )
„
Aussi, la distribution de la variable manquante est donnée par
α yt i p yi (x i θ yt i )
P ( yi x i , α t , θ t ) =
„
∑
m
j =1
α tj p j (x i θ tj )
Nous pouvons ainsi obtenir l’expression de Q ( α, θ; α t , θ t ), à
maximiser par la méthode des multiplicateurs de Lagrange tenant
m
compte de la contrainte ∑ j =1 α j = 1
25/09/2013
RCP209
35
EM pour mélange gaussien
„
Considérons des composantes lois normales multidimensionnelles
p j (x μ j , Σ j ) =
„
„
1
( 2π ) d 2 Σ j
12
e
−
1
( x −μ j ) T Σ −j1 ( x −μ j )
2
Données manquantes : {Yi }i =1 : y ∈ {1, K, m }, yi = j si l’observation xi
a été générée par la composante j du mélange
Logarithme de la vraisemblance totale ( θ correspond aux μ j , Σ j ) :
n
n
n
i =1
i =1
ln p (Do , Dm α, θ ) = ∑ ln p (x i , yi α, θ ) = ∑ ln α yi p yi (x i θ yi )
„
Espérance du logarithme de la vraisemblance :
⎡
Q ( α, θ; α t , θ t ) = ∑ ⎢
y ⎣
25/09/2013
M. Crucianu
α yt i p yi (x i θ yt i )
n
⎤
(
)
ln
x
θ
p
α
∑ i =1 yi yi i yi ⎥⎦ ∏ i =1 m α t p (x θ t )
∑ j j i j
n
j =1
RCP209
36
18
CNAM Paris - RCP209
25/09/2013
EM pour mélange gaussien (2)
„
Après quelques calculs on obtient
m
n
m
n
Q ( α, θ; α t , θ t ) = ∑∑ P ( j x i , α t , θ t ) ln α j + ∑∑ P ( j x i , α t , θ t ) ln p j (x i θ j )
j =1 i =1
j =1 i =1
t
t
t
t
avec P( j x i , α , θ ) = α j p j (x i θ j )
„
l =1
α lt pl (x i θlt )
Les équations de mise à jour résultantes sont
α
t +1
j
t +1
j
∑
=
n
i =1
Exemples : [Akaho]
∑
=
∑
n
1 n
= ∑ P( j x i , α t , θ t )
n i =1
Σ
„
∑
m
μ
t +1
j
i =1
xi P( j xi , α t , θ t )
n
i =1
P( j xi , α t , θ t )
P( j x i , α t , θ t )(x i − μ jt +1 )(x i − μ tj +1 )
∑
25/09/2013
n
i =1
T
P( j xi , α t , θ t )
RCP209
37
Exemple : 2 gaussiennes 2D
après 1 itération
après 4 itérations
après > 5 itérations
25/09/2013
M. Crucianu
RCP209
[Akaho]
38
19
CNAM Paris - RCP209
25/09/2013
Exemple : données peu structurées
Résultats très différents obtenus avec 4 initialisations différentes
25/09/2013
[Akaho]
RCP209
39
Mélanges et classification automatique
„
Si on considère que chaque composante d’un mélange représente
un groupe (cluster), trouver les paramètres du modèle permet
d’identifier les groupes ( x i sera affecté à la composante
j * = arg max P j x i , αˆ , θˆ ) et de modéliser chaque groupe
„
Approche CML (Classification Maximum Likelihood) : on introduit
des vecteurs-indicateurs q i , avec qij = 1 si x i est généré par la
composante j et qij = 0 sinon (voir aussi [CG92])
„
Centres mobiles et EM pour modèles de mélange :
j
‹
(
)
Mélange de lois normales multidimensionnelles avec α j = 1 n , ∀j ,
matrices de variances-covariances identité et P j x i , αˆ , θˆ = 1 si et
seulement si x i est plus proche de μ j
(
)
⇒ L’estimation des paramètres du modèle (seuls restent les μ j ) se réduit
à l’algorithme de classification par centres mobiles
25/09/2013
M. Crucianu
RCP209
40
20
CNAM Paris - RCP209
25/09/2013
Choix du nombre de composantes
„
Difficulté : pour un modèle de mélange, le maximum de la
vraisemblance augmente en général avec le nombre de
composantes, la vraisemblance ne peut donc pas servir au choix
du nombre de composantes (sélection de modèle)
„
Types de méthodes (voir la synthèse [OBM05]) :
‹
‹
‹
‹
Tests d’hypothèses : inspirés par LRTS (likelihood ratio test statistic,
ne s’applique pas tel quel) pour m composantes vs. m+1 composantes
Critères d’information : pénaliser proportionnellement au nombre de
paramètres (par exemple AIC, BIC)
Évaluer le degré de séparation entre composantes (les composantes
peu séparées seront fusionnées) : mesure d’entropie (par exemple
[CS96]), critères issus de la classification floue
Modifications de EM (par exemple [FJ02]) pour estimer le nombre de
composantes en même temps que les paramètres
25/09/2013
RCP209
41
Nombre trop élevé ?
Nombre
adéquat
25/09/2013
Nombre trop faible ?
Exemple : nombre de composantes
RCP209
42
[Akaho]
M. Crucianu
21
CNAM Paris - RCP209
25/09/2013
Paramétrique vs. non paramétrique
„
Avantages des méthodes paramétriques :
‹
‹
„
Si les hypothèses sont valides, bonne estimation avec des
échantillons de taille comparativement faible
Après construction du modèle, faible coût de l’estimation de la
densité en un point précis
Avantages des méthodes non paramétriques :
‹
‹
‹
Généralité due à l’absence d’hypothèses sur le nombre et les
types de lois
Convergence garantie vers la vraie densité… si l’échantillon est
suffisant !
Paramètre unique… mais difficile à choisir ! De plus, une
même valeur peut ne pas convenir à l’ensemble du domaine
25/09/2013
RCP209
43
Références
[Akaho] Akaho S. Applet mélange de gaussiennes. (actuellement sur
http://cedric.cnam.fr/~crucianm/appletMixMod.html)
[CG92] G. Celeux, G. Govaert. A classification EM algorithm for clustering and two
stochastic versions. Computational Statistics & Data Analysis, 14, 315-332, 1992.
[CS96] G. Celeux, G. Soromenho. An Entropy Criterion for Assessing the Number of
Clusters in a Mixture Model. Classification Journal, vol. 13, pp. 195-212, 1996.
[DLR77] A. P. Dempster, N. M. Laird, D. B. Rubin. Maximum Likelihood from
Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society,
Series B, vol. 39, 1:1-38, 1977.
[FJ02] Figueiredo, M. A. and Jain, A. K. 2002. Unsupervised Learning of Finite Mixture
Models. IEEE Trans. Pattern Anal. Mach. Intell. 24, 3 (Mar. 2002), 381-396.
[OBM05] A. Oliveira-Brochado, F. V. Martins. Assessing the Number of Components in
Mixture Models: a Review. FEP Working Papers 194, Universidade do Porto, 2005.
25/09/2013
M. Crucianu
RCP209
44
22
Téléchargement