Un graphe génératif pour la classification semi

publicité
Un graphe génératif pour la classification
semi-supervisée
Pierre Gaillard * — Michaël Aupetit ** — Gérard Govaert ***
* CEA, DAM, DIF, F-91297 Arpajon, France
[email protected]
** CEA, LIST, F-91191 Gif-sur-Yvette, France.
[email protected]
** UTC, U.M.R. C.N.R.S. 6599 Heudiasyc, 60205 Compiègne Cedex, France
[email protected]
Nous proposons un nouvel algorithme semi-supervisé qui combine un modèle de mélange gaussien pour modéliser localement les données, et un graphe génératif construit sur les
composants du mélange pour capturer la structure globale des données. La combinaison est
réalisée via un processus de propagation d’étiquettes au travers du graphe. Contrairement aux
algorithmes de l’état de l’art, le modèle de graphe utilisé est génératif de telle sorte que son
optimisation peut être effectuée à l’aide de l’algorithme EM (Espérance-Maximisation) afin de
maximiser sa vraisemblance. De plus, l’unique méta-paramètre (le nombre de composants du
mélange) peut être sélectionné par un critère statistique. L’algorithme obtient des résultats expérimentaux similaires aux algorithmes comparables lorsque le nombre de données étiquetées
est faible, et offre l’avantage de n’avoir aucun paramètre à régler manuellement.
RÉSUMÉ.
We introduce a new semi-supervised algorithm based on a generative model. This
model combines a Gaussian mixture model and a generative graph built on the components of
this mixture. The combination corresponds to refit the class membership of the mixture component with a propagation process. Both models can be optimized under the maximum likelihood
framework and the only hyper-parameter (number of components of the mixture) can be selected
with a statistical criterion. Experimental results show that we achieve accuracies comparable
to those of rival state-of-the-art algorithms when few labeled data are available. Moreover,
it offers the advantage of defining an objective statistical criterion for tuning its parameters,
cancelling the need for arbitrary hand-tuning.
ABSTRACT.
MOTS-CLÉS : apprentissage semi-supervisé ; modèle de mélange ; graphe génératif ; propagation
ISI, pages 0 à 0
Un graphe génératif pour la classification
KEYWORDS:
semi-supervised learning ; mixture model ; generative graph ; label spreading
1
2
ISI
1. Introduction
1.1. Apprentissage semi-supervisé
`
Etant donné un ensemble de données étiquetées D` = {(xi , yi )}M
i=1 , où xi ∈ X ⊂
R est une donnée observée et yi ∈ {1, ..., K} son étiquette parmi un choix de K
classes, l’objectif des approches supervisées est de modéliser la relation existant entre
les données et leur étiquette de manière à répondre à la question suivante : connaissant
une nouvelle donnée, quelle est l’étiquette associée ? Malheureusement, dans de nombreuses applications, s’il est aisé d’obtenir les données grâce à un système d’acquisition automatisé, le processus d’étiquetage est quant à lui généralement long et coûteux
puisqu’il requiert les efforts et l’expérience d’un expert du domaine. Afin de réduire
le besoin de données étiquetées, les algorithmes d’apprentissage dits semi-supervisés,
qui apprennent un classifieur à partir de données étiquetées et non-étiquetées, ont fait
l’objet de nombreux travaux ces dernières années (Chapelle et al., 2006).
D
Par la suite, on note Du l’ensemble des Mu données non-étiquetées, Du =
M`
u
{xi }M
i=1 et D` l’ensemble des M` données étiquetées, D` = {(xi , yi )}i=1 . Le nombre
total de données est : M = Mu + M` , avec Mu >> M` .
Lorsqu’on dispose de peu de données étiquetées, l’idée générale des approches
semi-supervisées est d’exploiter la structure géométrique de la distribution des données observées P (x), qui est fournie par les seules données non-étiquetées. Ceci provient de deux hypothèses généralement admises (Chapelle et al., 2003).
– Hypothèse locale : si deux données sont proches dans une zone de forte densité,
alors elles devraient appartenir à la même classe, ce qui implique que la frontière de
décision doit passer par des régions de faible densité.
– Hypothèse globale : les données sont proches d’un ensemble de variétés dont
la dimension intrinsèque est plus faible que la dimension de l’espace d’observation.
Puisque les variétés définissent des chemins de forte densité, on obtient par transitivité de la première hypothèse que des données issues de la même variété devraient
appartenir à la même classe (Bousquet et al., 2004).
1.2. Plan
Dans les deux Sections suivantes, nous présentons les différents algorithmes de
l’état de l’art en les caractérisant comme étant soit génératifs, soit discriminatifs
(Rubinstein et al., 1997). La section 2 introduit les approches génératives qui tentent
de décrire le processus de génération des données (et donc les variétés) en estimant
la distribution jointe P (x, y). La section 3 introduit les approches discriminatives
qui ont pour seul objectif de définir une fonction h, liant les données et les étiquettes
(y = h(x)) de manière à minimiser une erreur de classification. Nous verrons au travers de cette section comment ces approches utilisent un graphe de proximité construit
sur les données pour capturer la géométrie des variétés.
Un graphe génératif pour la classification
3
Dans la section 3 nous proposons un nouvel algorithme semi-supervisé basé sur un
modèle de mélange gaussien (Miller et al., 1996) et sur le graphe génératif gaussien
(Aupetit, 2006). Nous comparons dans la section 4 les performances des différents
algorithmes avant de conclure dans la section 5.
2. Approches génératives
2.1. Modèles de mélange
Dans le contexte de l’apprentissage semi-supervisé, les modèles génératifs ont largement été utilisés et étudiés puisqu’ils permettent de modéliser les densités P (x, y)
et P (x). La structure complexe des données est localement capturée à l’aide d’une
somme finie et pondérée de densités simples et usuelles. Par exemple, Landgrebe et
al. (1978) et Nigam et al. (2000) utilisent respectivement un modèle de mélange de
densités gaussiennes et multinomiales pour la classification d’images et de textes.
Miller et al. (1996) proposent un modèle de mélange gaussien, où chaque densité
est associée à une ou plusieurs classes :
p(x, y; θ)
=
N
X
p(n)p(y|n)p(x|n) =
n=1
N
X
πn βny g(x|wn ; Σn )
[1]
n=1
où θ est l’ensemble des paramètres du modèle décrit ci-dessous.
Les densités gaussiennes g sont appelée les composants du mélange et elles sont
paramétrées par leur moyenne wn ∈ RD et leur matrice de covariance Σn ∈ RD ×
RD :
1
g(x|wn ; Σn ) =
exp −(x − wn )T Σ−1
[2]
n (x − wn )
D/2
1/2
(2π)
|Σn |
où |Σn | est le déterminant de la matrice de covariance Σn .
Les paramètres π = {πn }N
n=1 représentent les proportions de chaque densité gaussienne dans le mélange : πn est la probabilité qu’une donnée soit issue du ne composant. Elles vérifient les deux contraintes suivantes :
N
X
πn = 1 et πn ≥ 0 ∀ n
[3]
n=1
Les paramètres β = {βnk = p(y = k|n)|∀n, k} représentent la probabilité qu’une
donnée observée x soit de la classe k sachant qu’elle est issue du ne composant. Les
paramètres β vérifient donc :
K
X
k=1
βnk = 1 ∀n et βnk ≥ 0 ∀ n, k
[4]
4
ISI
En utilisant ce modèle paramétrique, on peut facilement utiliser les données nonétiquetées pour exprimer la densité p(x; θ). Pour cela, il suffit de marginaliser la denPK
sité jointe p(x, y; θ) par rapport à y. En utilisant le fait que k=1 βnk = 1 pour tout
n = {1, ..., N }, on a :
p(x; θ) =
K
X
p(x, y = k) =
N
X
πn g(x|wn ; Σn )
[5]
n=1
k=1
2.2. Estimation des paramètres
Le critère naturel pour estimer les paramètres du modèle est la vraisemblance
jointe des données étiquetées et non-étiquetées, qui s’exprime comme le produit
des deux vraisemblances puisque les données sont supposées i.i.d (indépendantes et
identiquement distribuées) (Seeger, 2001). Les estimateurs du maximum de vraisemblance des paramètres peuvent être déterminés aisément à l’aide de l’algorithme EM
(Dempster et al., 1977).
L(θ; D` , Du )
= L(θ; D` ) L(θ; Du ) =
M
Ỳ
i=1
p(xi , yi ; θ)
Mu
Y
p(xi ; θ)
[6]
i=1
2.3. Discussion sur les approches génératives
Les modèles de mélange présentent plusieurs avantages : (1) ils respectent par
construction l’hypothèse locale ; (2) ils permettent par nature de classifier via la règle
de Bayes des données non disponibles lors de l’apprentissage : on parle d’induction ;
(3) le seul méta-paramètre (le nombre de composants N ) peut être facilement sélectionné par validation croisée ou à l’aide d’un critère statistique tel que BIC
(Schwartz, 1978) ; (4) ils sont capables, à l’aide de l’algorithme EM, de traiter des
données incomplètes (Ghahramani et al., 1994).
En revanche, même si les modèles de mélange modélisent bien les données localement, ces méthodes ne prennent pas en compte la structure sous-jacente des données puisqu’aucune relation géométrique entre les différents composants n’est définie. Lorsque les variétés sont complexes, l’hypothèse globale ne peut pas être prise en
compte avec des densités simples (figure 1).
3. Approches discriminatives
La plupart des approches discriminatives apprennent un classifieur h en prennant en compte la structure des données via un graphe de proximité des données.
Couramment, il s’agit du graphe des k plus proches voisins. Plus précisément, la
Un graphe génératif pour la classification
(a)
5
(b)
Figure 1. Apprentissage semi-supervisé des modèles de mélange (Miller et al.,
1996). (a) On dispose d’un ensemble de données partiellement étiquetées issues de
deux variétés représentant des demi-cercles. Seules deux données (une de chaque
classe) sont étiquetées et sont représentées par ∇ (classe 1) et ∆ (classe 2). On souhaite qu’un algorithme d’apprentissage semi-supervisé puisse étiqueter les données
suivant ces deux variétés. (b) La densité est estimée par un modèle de mélange gaussien après maximisation de la vraisemblance. La couleur des gaussiennes code le
degré d’appartenance à une classe. Elle est proportionnelle à maxy βny = p(y|n),
de telle sorte qu’un composant rouge signifie p(y = 1|n) = 1 et un composant bleu
signifie p(y = 2|n) = 1. Ainsi, lorsqu’un composant se situe près d’une donnée étiquetée, il représente avec une forte probabilité une seule classe. A l’inverse, lorsque
le composant ne représente que des données non-étiquetées, sa classe est incertaine :
βny ≈ 12 . La frontière de décision induite par le modèle de mélange est tracée en
noire. Le modèle de mélange n’est donc pas capable d’étiqueter correctement les deux
variétés.
quantité essentielle utilisée lors de cette section est le Laplacien du graphe (ChungGraham, 1997).
Définition 1 [Laplacien d’un graphe] Soit un graphe G(w, E) composé de N sommets w et dont les liens E sont pondérés par W : E → R+ . Soit la matrice d’adjacence pondérée du graphe G :
W (e) si e = (a, b) ∈ E
Wab =
[7]
0
si e = (a, b) ∈
/E
PN
Soit la matrice diagonale des degrés Dii = j=1 Wij . Alors, le Laplacien du graphe
et le Laplacien normalisé du graphe sont donnés respectivement par :
L =D−W
L = I − D−1/2 WD−1/2 , où I est la matrice identité
Généralement, les pondérations W sont choisies parmi deux types.
[8]
6
ISI
– Binaires : W (e) = 1 si e = (a, b) ∈ E et 0 sinon.
2
a −wb ||
– Gaussiennes : W (e) = exp −||w2σ
si e = (a, b) ∈ E et 0 sinon.
2
Le laplacien permet d’exprimer la régularité du classifieur h par rapport à la variété structurant les données. En effet, on prouve que si les données sont distribuées
sur une
Z variété M selon P (x), alors sous certaines conditions, le terme de régularisation
M
||∇M h(x)||2 dP (x) (où ∇ dénote le gradient) peut être approché à l’aide du
laplacien du graphe par : h L hT , où h = [h(x1 ), ..., h(xM )] (Belkin et al., 2005).
Sur ce fondement, plusieurs algorithmes ont été développés parmi lesquels on peut
citer les algorithmes de propagation (Chapelle et al., 2006). Les approches de propagation diffusent les étiquettes disponibles au travers d’un graphe construit sur toutes
les données (Szummer et al., 2002; Zhu et al., 2003; Zhou et al., 2004). Ces algorithmes définissent un schéma itératif où la diffusion d’une étiquette se fait par l’intermédiaire d’une matrice de transition P qui code la similarité entre deux données.
Dans cette section, les étiquettes sont codées par une matrice Y qui est définie par :
1 si xi ∈ D` tel que yi = k
Yik =
[9]
0 sinon
Zhou et al. (2004) utilisent le processus itératif décrit par l’algorithme 1. A chaque
itération de la propagation, l’étiquette d’une donnée change en recevant une contribution des autres données (pondérée par la matrice de transition P) et une contribution
de sa valeur initiale. Dans cet algorithme, la matrice de transition est le Laplacien
normalisé d’un graphe de proximité des données. Zhu et al. (2003) proposent un algorithme similaire appelé Propogation Harmonique (PH). La matrice de transition P
est définie par P = D−1 W, où W est la matrice de pondérations des liens d’un
graphe de proximité construit sur toutes les données et D est la matrice diagonale des
degrés. De plus, la contribution des valeurs initiales est omise (α = 0) et la classe des
données étiquetées est contrainte à rester identique au cours de l’algorithme de propagation (Figure 2). Zhu et al. (2003) montrent que ce dernier algorithme converge et ne
dépend pas des valeurs initiales des étiquettes des données non-étiquetées. La solution
obtenue est équivalente à minimiser la fonction d’énergie E(Y ) suivante :
E(Y ) = arg min Y T LY
Y
avec Yik = 1 si yi = k pour xi ∈ D`
[10]
où L = D − W est le Laplacien du graphe. En annulant la dérivée de la fonction
d’énergie E (7), on obtient que la solution doit statisfaire LY = 0 pour les données
non-étiquetées et Yik = 1 pour les données étiquetées de la classe k. Notons que dans
ces deux algorithmes, la fonction de décision est uniquement définie sur les données
présentes lors de l’apprentissage : on parle dans ce cas de transduction.
Un graphe génératif pour la classification
7
Algorithme 1 Algorithme de propagation (Zhou et al., 2004)
Entrées : P, y
Initialisation :
(0)
si xi ∈ D` , Yik = 1 si yi = k et 0 sinon.
(0)
si xi ∈ Du , Yik = 0.
choisir α ∈ [0, 1[
Tant que non convergence, répéter :
Y (t+1) = αPY (t) + (1 − α)Y (0)
Fin tant que
Sortie : associer à xi l’étiquette arg maxk (Yik )
(a) t = 20
(b) t = 100
(c) t = 300
(d) t = ∞
Figure 2. Propagation Harmonique (Zhu et al., 2003). Evolution des étiquettes lors
de la propagation harmonique via un graphe des 10 plus proches voisins. La couleur
des données est proportionnelle à maxk (Yik ).
8
ISI
(a)
(b)
Figure 3. Harmonique Mixture Model (Zhu et al., 2005). (a) Un modèle de mélange
gaussien est utilisé pour modéliser les données localement. (b) Les paramètres β qui
représentent l’appartenance d’un composant à une classe sont ensuite optimisés de
manière à être harmoniques par rapport au Laplacien du graphe des 10 plus proches
voisins.
3.1. Harmonic Mixture Model
Récemment, Zhu et al. (2005) ont proposé un algorithme appelé Harmonic Mixture Model (HMM), qui combine un modèle supervisé de mélange gaussien et une
approche de diffusion afin d’obtenir un modèle inductif (Figure 3). Les données sont
tout d’abord représentées localement en utilisant un modèle de mélange gaussien (1).
Ce modèle définit la base du classifieur : il est donc inductif. Cependant, afin de tenir compte de la structure de données, l’estimation des paramètres β est modifiée de
manière à ce qu’ils soient harmoniques (Zhu et al., 2003) sur un graphe de proximité
construit sur toutes les données. Ayant construit ce graphe et calculé son Laplacien L,
les paramètres β optimaux sont déterminés en résolvant un problème d’optimisation
convexe sous contraintes :
(
min Y T LY
avec Yik = 1 si yi = k pour xi ∈ D`
β
[11]
0 ≤ βnk ≤ 1 ∀ n = 1, ..., N , k = 1, ..., K
où pour les données non-étiquetées P
(xi ∈ Du ), Yik est estimée à l’aide du modèle de
N
mélange : Yik = p(yi = k|xi ; θ) = n=1 βnk p(n|xi ; θ)
3.2. Discussion sur les approches discriminatives
Dans toutes ces approches discriminatives, l’hypothèse globale est prise en compte
à l’aide d’un graphe pondéré construit sur les données. Cependant, le choix des paramètres du graphe (k et les pondérations des liens) impacte grandement les résultats
(figure 4). Ceci est peut être dû à la sensibilité de ces graphes au bruit, comme le
reportent Carreira-Perpiñán et al. (2005). La même remarque tient pour les autres
Un graphe génératif pour la classification
9
méta-paramètres qu’il faut régler. Par exemple, l’algorithme de propagation de Zhou
et al. (2004) dépend du paramètre α qui pondère l’importance de la contribution des
étiquettes initiales. Malheureusement, lorsque le nombre de données étiquetées est
faible, il n’y a pas de critère objectif permettant de choisir ces paramètres puisque la
validation croisée est inadaptée : le paramétrage de ces algorithmes est donc heuristique comme le soulignent Zhou et al. (2004).
4. Graphe Gaussien Génératif Semi-supervisé
Pour éviter un réglage manuel et arbitraire des méta-paramètres, nous proposons
un nouvel algorithme semi-supervisé que l’on appelle le Graphe Gaussien Génératif Semi-Supervisé (GGGSS). De manière similaire à l’algorithme Harmonic Mixture
Model, les données sont représentées localement à l’aide d’un modèle de mélange
gaussien où chaque composant peut représenter les différentes classes. Afin de tenir
compte de la structure des données, nous proposons d’utiliser un modèle de graphe
génératif gaussien. Celui-ci étant construit sur les composants du modèle de mélange
et non sur les données, il permet de définir des chemins de densité entre les composants. Enfin, nous utilisons un processus de propagation le long des liens de ce graphe
pour optimiser l’appartenance des composants aux classes. L’idée est de propager les
étiquettes d’autant plus vite que la densité modélisée par les liens génératifs est forte.
Le modèle de mélange et le graphe sont tous les deux des modèles génératifs de telle
sorte que leur optimisation peut être effectuée via l’algorithme EM. Le seul métaparamètre du modèle est le nombre de composants qui peut être sélectionné par un
critère statistique. L’algorithme est illustré par la figure 5.
4.1. Modèle local
Afin de respecter l’hypothèse locale, nous utilisons un modèle de mélange gaussien
(Miller et al., 1996) (cf équation [1]). L’optimisation des paramètres du modèle est effectuée de manière à maximiser la vraisemblance jointe de données étiquetées et non
étiquetées à l’aide de l’algorithme EM. Le seul méta-paramètre est le nombre de composants N du mélange. Pour l’estimer, nous utilisons le critère BIC (Schwartz, 1978),
qui consiste à retenir le modèle qui maximise le critère de vraisemblance pénalisée
suivant :
N ∗ = arg max log(L) −
N =1,2,...
ν
log(M )
2
[12]
où L est le maximum de vraisemblance du modèle, M est le nombre total de données
et ν est le nombre de paramètres libres du modèle.
10
ISI
Propagation Harmonique
Harmonique Mixture Model
(a) k = 5
(d) k = 10
(b) k = 6
(e) k = 15
(c) k = 8
(f) k = 24
Figure 4. Paramètrage des approches semi-supervisées. Pour ces exemples, on utilise les mêmes variétés que précédemment en augmentant légèrement la variance du
bruit gaussien. On remarque que les résultats des méthodes de propagation varient
fortement en fonction de la valeur k choisie pour construire le graphe des k plus
proches voisins. Notons qu’il n’existe pas de critères pour régler ce paramètre lorsque
le nombre de données étiquetées est faible. A gauche, le modèle est transductif : on ne
peut pas étiqueter une nouvelle donnée sans relancer la propagation. A droite, le modèle est inductif : il génère une fonction de décision définie sur l’ensemble du domaine
X, ce qui permet d’étiqueter une nouvelle donnée sans relancer la propagation.
Un graphe génératif pour la classification
(a)
(b)
(c)
(d)
11
Figure 5. Illustration du graphe génératif semi-supervisé : (a) Un modèle de mélange gaussien est utilisé pour modéliser les données localement. (b) Densité estimée
par le graphe génératif après optimisation de la vraisemblance. Le graphe choisi pour
le support de la densité est la TDI (Triangulation de Delaunay Induite) construit par
l’algorithme CHL (Competitive Hebbian Learning). Les paramètres β du modèle de
mélange sont ré-optimisés en les propageant le long des liens du graphe génératif.
Le sens et la force de propagation sont illustrés par la figure (c). (d) Après propagation, on obtient un nouveau modèle de mélange permettant d’étiqueter correctement
les deux variétés. Pour cet exemple, la fonction de décision est similaire à celle obtenue avec l’algorithme Harmonic Mixture Model (HMM) (Zhu et al., 2005), lorsqu’on
définit pour celui-ci un graphe approprié (figure 4 (e)). Cependant, lorsqu’on dispose
uniquement de deux données étiquetées, l’algorithme HMM ne dispose d’aucun critère permettant de choisir ce graphe.
4.2. Modèle global
Afin de tenir compte de la structure des données, nous proposons d’utiliser un
graphe, non pas construit sur les données, mais sur l’ensemble w = {wn ∈ RD }N
n=1
défini par les composants du modèle de mélange local. Puisque nous sommes intéressés par caractériser les chemins de densité que définissent les variétés (hypothèse
globale), nous estimons la densité P (x) à l’aide d’un graphe génératif (Aupetit, 2006).
12
ISI
Etant donné un graphe G(w, E) qui connectent w, on associe à chaque lien du graphe
la densité de probabilité suivante :
2
h(xi |[wa , wb ]; σ )
1
=
Lab
Z
wb
g(xi |t; σ 2 ) dt
Z wb
1
(xi −t)2
=
exp −
dt
D
2σ 2
(2πσ 2 ) 2 Lab wa
wa
[13]
où Lab = kwb −wa k.
Cette densité correspond à une somme infinie de densités gaussiennes isovariées
uniformément distribuées le long d’un segment (wa , wb ) ∈ RD×2 . Enfin, de manière
similaire à un mélange classique, on constitue un modèle de graphe génératif en combinant linéairement les densités supportées par les liens du graphe G(w, E).
X
αe h(xi |e; σ 2 )
[14]
p(xi ; Θ, G(w, E)) =
e∈E
Les estimations du maximum de vraisemblance des paramètres Θ = (α, σ 2 ) sont
déterminées par l’algorithme EM1 en considérant toutes les données comme non étiu +M`
quetées : x = {xi }M
.
i=1
Plusieurs graphes peuvent constituer la base de ce modèle génératif. Nous suggérons de choisir la Triangulation de Delaunay Induite puisque celui-ci contient généralement tous les chemins de densité d’intérêt. Ce graphe se construit par l’algorithme
Competitive Hebbian Learning (CHL) (algorithme 2) qui consiste à connecter deux
composants w` et wj s’ils sont les deux plus proches d’une donnée observée xi ∈ x.
Algorithme 2 Competitive Hebbian Learning (Martinetz et al., 1994)
Entrées : x, w
E ← ∅ (liste des liens)
Pour i = 1, ..., M faire
` = arg minj {||xi − wj ||2 ; wj ∈ w}
n = arg minj {||xi − wj ||2 ; wj ∈ w \ {w` }}
E ← E ∪ {wn , w` }
Fin
Sortie : E
4.3. Propagation
L’objectif est de combiner l’information locale et globale. Nous souhaitons propager l’appartenance des composants du modèle local aux classes en tenant compte :
1. Les équations sont disponibles dans l’article de Aupetit (2006)
Un graphe génératif pour la classification
13
– de leur proximité (au sens de la densité) dans la structure globale définie par le
graphe génératif : plus la densité est élevée le long d’un lien (plus αe est grand), plus
la propagation doit être forte.
– du degré d’appartenance aux classes, en favorisant la propagation des étiquettes
des composants ayant une probabilité βny = p(y|n) proche de 1, vers des composants
1
dont l’étiquette est incertaine (βny = p(y|n) proche de K
).
Afin de tenir compte de la proximité au sens de la densité, nous définissons la
matrice d’adjacence pondérée des composants par :
( αe
si e = (a, b) ∈ E
Lab
[15]
Wab =
0
sinon
De manière similaire à la Propagation Harmonique (Zhu et al., 2003), la matrice
de transition P est définie par :
P = D−1 W
où D est la matrice diagonale des degrés : Dnn =
[16]
PN
j=1
Wnj .
Afin de tenir compte du degré d’appartenance aux classes, nous utilisons l’approche de Zhou et al. (2004) : plus un composant est incertain, plus il recevra une
contribution des composants voisins. Ainsi, nous associons à chaque composant une
étiquette initiale Y (0) et un potentiel V . L’étiquette est déterminée par la règle du
maximum a posteriori :
(
1 si arg max βny = k
(0)
y
Ynk =
[17]
0 sinon
Le potentiel d’un composant est proportionnel au degré d’appartenance à l’étiquette qu’il représente. Il correspond à la propension d’un composant à changer d’étiquette, ce qui peut être vu comme une forme d’inertie. Le potentiel varie entre 0 et 1
de telle sorte que plus il est proche de 0, plus l’étiquette du composant correspondant
dépendra de l’étiquette des composants voisins. Le potentiel Vn est donc défini par :
1
K
max βny −
[18]
Vn =
y
(K − 1)
K
Le potentiel Vn joue alors le rôle de (1 − α) dans l’algorithme 1. Cependant, dans
ce dernier, le terme (1 − α) est égal pour toutes les données alors que dans notre
propagation, chaque composant a un potentiel différent.
En utilisant ce principe, le schéma itératif de propagation est défini par :
Y (t+1) = [(1 − W) ⊗ P]Y (t) + V ⊗ Y (0)
[19]
14
ISI
Le symbole ⊗ dénote la multiplication terme à terme et 1 est la matrice de taille
N ×N dont tous les éléments valent 1. W est la matrice carrée définie par Wnj = Vn
pour tout j = 1, ..., N et V est la matrice diagonale définie par Vnn = Vn pour tout
n = 1, ..., N .
(t+1)
Notons qu’à chaque étape, il est simple de vérifier que Ynk
satisfait les deux
PK
(t+1)
(t+1)
conditions 0 ≤ Ynk
≤ 1 et k=1 Ynk
= 1, et que ce mode de propagation
répond aux propriétés souhaitées. En particulier, un composant ayant une étiquette
certaine (maxy βny = 1) a un potentiel égal à 1, de telle sorte que son étiquette ne
1
)
sera pas modifiée. A l’inverse, un composant entièrement incertain (maxy βny = K
(t+1)
sera une somme pondérée des
a un potentiel égal à 0, et à l’issue de l’itération, Yny
(t)
étiquettes Yjy de ses composants voisins j.
La preuve de la convergence de l’algorithme est similaire à celle fournie par Zhou
et al. (2004), et on montre que (voir annexe) :
β∗
= lim Y (t) = [I − (1 − W) ⊗ P]−1 V ⊗ Y (0)
t→∞
[20]
Pour démontrer la convergence de l’algorithme 1, Zhou et al. (2004) s’appuient
sur le fait que la matrice de propagation P est une matrice stochastique et que par
conséquent ses valeurs propres sont dans [−1, 1]. Ainsi, choisissant α ∈ [0; 1[, les
valeurs propres de αP sont dans ] − 1, 1[, propriété qui fonde la preuve de la convergence. Dans notre cas, il faut donc démontrer que les valeurs propres de la matrice
P = (1 − W) ⊗ P sont aussi dans ] − 1, 1[. On peut montrer que c’est le cas,
s’il existe au moins un composant du modèle de mélange gaussien par composante
connexe du graphe qui a un potentiel différent de 0, c’est-à-dire un composant qui
1
n’est pas entièrement incertain : maxy βny > K
.
4.4. Classification
Le classifieur final est défini par le modèle de mélange gaussien initial dont les
paramètres β ont été optimisés suivant l’équation (17) :
p(x, y; θ)
=
N
X
∗
πn βny
g(x|wn ; Σn )
[21]
n=1
On peut ainsi étiqueter une (nouvelle) donnée à l’aide de la règle de Bayes :
ŷ = h(x) = arg max p(y = k|x) = arg max p(x, y = k)
k∈Y
k∈Y
[22]
4.5. Algorithme
L’algorithme du Graphe Gaussien Génératif Semi-Supervisé (GGGSS) est décrit
ci-dessous.
Un graphe génératif pour la classification
15
Algorithme 3 Graphe Gaussien Génératif Semi-Supervisé
Entrées : D` , D`
Etape locale :
Estimer les paramètres θ = (π, w, β, Σ) d’un modèle de mélange gaussien à N
composants (Miller et al., 1996). N est déterminé en maximisant le critère BIC.
Etape globale :
Utiliser l’algorithme CHL pour construire la TDI (algorithme 2).
Estimer les paramètres optimaux (α, σ 2 ) du graphe génératif (Aupetit, 2006).
Propagation :
Ré-estimer les paramètres β ∗ avec (17).
Classification :
Classifier les données non-étiquetées avec (19).
Sortie :
4.6. Comparaison avec l’état de l’art
L’algorithme présenté peut être vu comme une version squelette des algorithmes
de propagations usuels : on résume les données par un ensemble de prototypes w, on
construit un graphe des prototypes et on propage les étiquettes des prototypes le long
des liens de ce graphe. Enfin, on attribue aux données, l’étiquette du prototype qui les
représente.
L’algorithme GGGSS est donc similaire aux algorithmes de propagation de l’état
de l’art mais :
– les données correspondent aux prototypes ;
– l’appartenance aux classes n’est pas binaire (0 ou 1) mais continue (β ∈ [0, 1]) ;
– les pondérations d’un lien du graphe ne sont plus uniquement fonction de la
distance entre ses sommets mais aussi fonction de la densité entre ses sommets.
De plus, l’algorithme est inductif de telle sorte qu’il puisse traiter de nouvelles
données. Ceci n’est généralement pas le cas pour les méthodes à base de graphes
puisqu’ils sont transductifs par nature (Szummer et al., 2002; Zhu et al., 2003; Zhou
et al., 2004). De plus, l’algorithme peut facilement être utilisé en présence de données
incomplètes. En effet, le modèle de mélange gaussien ainsi que le graphe génératif
permettent de prendre en compte ce cas au travers de l’algorithme EM2 . La différence
majeure concerne la sélection de modèle. Nous proposons de remplacer la sélection
supervisée réalisée généralement par la validation croisée (qui pose problème lorsque
peu de données étiquetées sont disponibles) par un critère semi-supervisé (le critère
BIC) qui ne souffre pas d’un manque de données étiquetées. Le tableau 1 résume ces
différences.
2. Dans ce cas, la TDI ne peut plus être utilisée puisque sa construction nécessite des données
complètes : le graphe de Delaunay des prototypes est alors une solution possible.
16
ISI
Classifieur
Graphe
construit sur des
type de graphe
pondérations W
Méta-paramètres
Critère
Complexité
graphe
propagation
GGGSS
inductif
PH
transductif
HMM
inductif
prototypes
TDI
densité /distance
N
BIC
données
k-PPV
distance
k, W
VC
données
k-PPV
distance
N , k, W
VC
O(N 2 M )
O(N 3 )
O(M 2 )
O(M 3 )
O(M 2 )
O(N 3 )
Tableau 1. Comparaison des algorithmes d’apprentissage semi-supervisé par
propagation. Pour les algorithmes GGGSS, la Propagation Harmonique (PH) (Zhu
et al., 2003) et l’Harmonic Mixture Model (Zhu et al., 2005) , nous indiquons le type
de classifieur, les caractéristiques du graphe utilisé, leurs méta-paramètres, les critères de sélection (V C : validation croisée) ainsi que la complexité algorithmique
pour construire le graphe et pour propager les étiquettes. Notons que pour le GGGSS
et le HMM, il faut ajouter le temps nécessaire pour positionner les composants.
5. Expériences
5.1. Description des données
Nous utilisons six ensembles de données ayant des caractéristiques différentes (tableau 2). Deux ensembles proviennent du l’ouvrage de Chapelle et al. (2006) et sont
disponibles à l’adresse : http ://www.kyb.tuebingen.mpg.de/ssl-book/.
– Digit 1 : 1500 images de taille 16 × 16 sont construites à partir d’une forme
représentant le nombre "1" qui a été translaté, dilaté, bruité et pivoté. La classe est
binaire y = {−1, 1} et elle est définie par l’angle de rotation. De plus, sur les 256
variables, seules 241 sont conservées.
– USPS : 1500 images de taille 16 × 16 représentent des chiffres manuscrits. Les
chiffres "2" et "5" forment la classe "-1" tandis que les autres chiffres correspondent à
la classe "1". Ainsi, les classes sont déséquilibrées avec un rapport 1 :4. De la même
manière que pour l’ensemble Digit 1, sur les 256 variables, seules 241 sont conservées.
Quatre autres ensembles proviennent de l’UCI Repository of machine learning
databases (Newman et al., 1998).
– Pima : 8 caractéristiques physiologiques, telles que la masse corporelle et la
pression artérielle, sont mesurées sur 768 femmes. L’objectif est de détecter si ces
femmes ont le diabète. Les classes sont déséquilibrées puisque 500 femmes ont un
test négatif. Les variables ont été centrées et réduites.
Un graphe génératif pour la classification
17
– Ionosphere : 351 données définies par 34 variables correspondent à des signaux radar servant à analyser la ionosphère. La classe est binaire et correspond à
la qualité des signaux (s’ils permettent ou non d’identifier la structure attendue de la
ionosphère).
– Breast cancer : 569 images d’une cellule d’un sein sont utilisées pour détecter la présence d’un cancer. La classification binaire est réalisée à l’aide de 10 caractéristiques issues d’un traitement d’image permettant d’extraire par exemple l’aire
et le périmètre de la cellule.
– Isolet (voyelles) : 150 personnes prononcent le nom de chaque voyelle de l’alphabet 2 fois. Chacun des 1800 sons est représenté par 617 variables telles que les
coefficients spectraux. Afin de réduire la dimensionalité des données, nous conservons
les projections des données sur les 190 axes principaux déterminés par l’ACP (Analyse
en Composantes Principales). Ces axes expliquent près de 99% de la variance des
données.
Digit 1
USPS
Pima
Ionosphere
Breast cancer
Isolet
M
1500
1500
768
351
569
1800
D
241
241
8
34
10
190
K
2
2
2
2
2
6
Commentaire
artificiel
déséquilibré
déséquilibré
multi-classes
Tableau 2. Caractéristiques principales des données. Dans ce tableau, on indique
le nombre de données M , leur dimensionnalité D et le nombre de classes K.
5.2. Méthodologie
Pour démontrer la validité du Graphe Gaussien Génératif Semi-Supervisé
(GGGSS), nous comparons les performances de l’algorithme avec 4 autres méthodes :
le Modèle de Mélange Gaussien dont les paramètres sont appris de manière semisupervisée (Miller et al., 1996) (MMGSS), la Propagation Harmonique (PH) (Zhu et
al., 2003), l’Harmonic Mixture Model (HMM) (Zhu et al., 2005) et le classifieur du
plus proche voisin (1-PPV).
Pour chaque ensemble de données, nous utilisons la méthodologie utilisée par
Chapelle et al. (2006). Nous partageons l’ensemble d’apprentissage en deux, l’un
contenant M` données étiquetées, et l’autre contenant les Mu = M − M` données
non-étiquetées. On vérifie uniquement que dans l’ensemble des données étiquetées, il
existe au moins une donnée de chaque classe. Les algorithmes d’apprentissage semisupervisés sont alors utilisés pour classifier les données non-étiquetées. Cette procédure est répétée 20 fois pour différents nombres M` de données étiquetées puis nous
traçons (figure 6) la moyenne de bonne classification obtenue sur l’ensemble de don-
18
ISI
nées non-étiquetées pour chaque valeur de M` . Pour les problèmes à 2 classes, le
tableau 3 indique la valeur moyenne en pourcentage de l’aire sous la courbe ROC3 .
Puisqu’aucun critère n’a été utilisé pour sélectionner un nombre approprié de composants, nous construisons le HMM et le GGGSS en utilisant le même MMGSS. Le
nombre de composants N est déterminé à l’aide du critère BIC. Afin de renforcer
l’hypothèse locale et éviter les problèmes numériques, le MMGSS est un modèle dont
la variance est sphérique et commune à chaque composant. Afin de limiter les temps
de calcul, le nombre de composants N est déterminé une fois pour toute, en considérant que toutes les données sont non-étiquetées. Pour les données Digit 1, USPS,
Pima, Ionosphere, Breast cancer et Isolet, le nombre de composants N vaut respectivement : 51, 49, 15, 15, 20 et 21.
Pour le HMM et la LP nous utilisons le graphe symétrique des 10 plus proches
voisins (Zhu et al., 2003; Zhu et al., 2005) et la pondération des liens est réalisée via
un noyau gaussien dont la variance est déterminée en utilisant l’heuristique proposée
d
par Chapelle et al. (2006) : σ = , où d est la distance moyenne entre une donnée et
3
sa 10e donnée la plus proche.
5.3. Résultats et analyses
A l’aide de la figure 6, nous observons certaines tendances.
– Le Graphe Génératif Gaussien Semi-Supervisé (GGGSS) et l’Harmonic Mixture Model (HMM) sont construits sur le même Modèle de Mélange Gaussien SemiSupervisé (MMGSS) et ont pour objectif d’améliorer ses performances en tenant
compte de la structure des données. On observe qu’en effet, le GGGSS obtient généralement de meilleures performances que le MMGSS. Notons que ce phénomème
s’amplifie lorsque la dimensionalité des données augmente (e, c, f). En revanche, ceci
n’est pas toujours le cas pour le HMM. Par exemple, pour les données Breast cancer
(a), la propagation réalisée par le HMM avec des paramètres heuristiques dégrade les
performances du MMGSS.
– Lorsque le nombre de données étiquetées augmente, le GGGSS tend vers la
même solution que le MMGSS. En effet, la propagation n’influe plus sur le MMGSS,
puisque dans ce cas, les composants représentent une classe presque sûrement : pour
le MMGSS, cela signifie que leur potentiel vaut 1.
– Lorsque le nombre de données étiquetées est faible (M` < 20), le GGGSS obtient généralement de meilleurs résultats que les autres algorithmes.
3. La courbe ROC (Receiver Operating Characteristic) permet d’étudier les variations de la
spécificité (taux de bonne classification de la classe "-1") et de la sensibilité (taux de bonne
classification pour la classe "1") d’un algorithme pour différentes valeurs du seuil de décision.
Lorsque l’étiquette prédite par un classifieur h(x) est donnée par signe(h(x)), alors la courbe
ROC trace pour différents seuils t, la sensibilité en fonction de (1-spécificité) pour la fonction
de décision signe(h(x) + t)
Un graphe génératif pour la classification
19
– Lorsque le nombre de données étiquetées est plus important (M` > 50), la Propagation Harmonique (PH) peut obtenir un taux de bonne classification supérieur au
GGGSS (b et e), même avec un paramètrage heuristique.
MMGSS
PH
HMM
GGGSS
Digit1
71.03
98.29
93.47
94.85
USPS
56.27
71.51
75.34
80.91
Pima
64.18
60.66
57.87
64.83
Ionosphere
82.44
70.00
79.02
84.49
Breast
97.71
94.77
96.48
98.39
Tableau 3. Aire moyenne (en %) sous la courbe ROC avec M` = 10 pour les
différents problèmes de classification à deux classes.
6. Conclusion
Dans cette article, nous introduisons un nouvel algorithme, appelé le Graphe Génératif Gaussien Semi-Supervisé. Afin de modéliser localement les données, nous utilisons un modèle de mélange gaussien (Miller et al., 1996), alors que l’échelle globale
apparaît au travers d’un graphe génératif gaussien construit sur les composants du
modèle de mélange. Ces deux modèles sont optimisés via l’algorithme EM (Dempster
et al., 1977) de manière à maximiser leur vraisemblance. Les informations locale et
globale sont ensuite combinées par un processus de propagation afin de ré-estimer
l’appartenance des composants à chaque classe. Le nombre de composants est sélectionné par le critère BIC (Schwartz, 1978) qui utilise toutes les données (étiquetées ou
non).
Dans les expériences réalisées, l’algorithme proposé atteint des performances comparables ou supérieures aux algorithmes de l’état de l’art lorsque le nombre de données
étiquetées est faible (le cadre typique d’applications des algorithmes semi-supervisés).
De plus, il a l’avantage de définir des critères objectifs pour la sélection des paramètres, évitant ainsi un paramétrage arbitraire qui peut se révéler désastreux.
Enfin, d’intéréssantes questions se posent sur le choix du modèle de bruit à utiliser
(pour le modèle de mélange local comme pour le graphe) ainsi que sur l’apport de
tels algorithmes lorsque l’hypothèse d’une structure sous-jacente n’est pas validée ou
lorsque cette structure a une dimension intrinsèque très grande.
7. Bibliographie
Aupetit M., « Learning Topology with the Generative Gaussian Graph and the EM Algorithm »,
in Y. Weiss, B. Schölkopf, J. Platt (eds), Advances in Neural Information Processing Systems 18, MIT Press, Cambridge, MA, p. 83-90, 2006.
Belkin M., Niyogi P., « Towards a Theoretical Foundation for Laplacian-Based Manifold Methods », Learning Theoryp. 486-500, 2005.
20
ISI
(a) BREAST
(d) IONOSPHERE
(b) PIMA
(e) DIGIT 1
(c) USPS
(f) ISOLET
Figure 6. Résultats des algorithmes d’apprentissage semi-supervisé. Dans chaque
figure, nous traçons le taux de bonne classification moyen sur 20 essais pour le Modèle de Mélange Gaussien Semi-Supervisé (MMGSS), le Graphe Génératif Gaussien
Semi-Supervisé (GGGSS), l’Harmonic Mixture Model (HMM) (Zhu et al., 2005), la
Propagation Harmonique (PH) (Zhu et al., 2003) et le classifieur du plus proche voisin (1-PPV) en fonction du nombre de données étiquetées dans l’ensemble de données
considéré.
Bousquet O., Chapelle O., Hein M., « Measure Based Regularization », in S. Thrun, L. Saul,
B. Schölkopf (eds), Advances in Neural Information Processing Systems 16, MIT Press,
Cambridge, MA, 2004.
Un graphe génératif pour la classification
21
Carreira-Perpiñán M., Zemel R., « Proximity Graphs for Clustering and Manifold Learning »,
in L. Saul, Y. Weiss, L. Bottou (eds), Advances in Neural Information Processing Systems
17, MIT Press, Cambridge, MA, p. 225-232, 2005.
Chapelle O., Schölkopf B., Zien A. (eds), Semi-Supervised Learning, MIT Press, Cambridge,
MA, 2006.
Chapelle O., Weston J., Scholkopf B., « Cluster Kernels for Semi-Supervised Learning », in
S. T. S. Becker, K. Obermayer (eds), Advances in Neural Information Processing Systems
15, MIT Press, Cambridge, MA, p. 585-592, 2003.
Chung-Graham F., Spectral Graph Theory, AMS, 1997.
Dempster A., Laird N., Rubin D., « Maximum likelihood from incomplete data via the EM
algorithm », Journal of the Royal Statistical Society, Series B, vol. 39, n˚ 1, p. 1-38, 1977.
Ghahramani Z., Jordan M., « Supervised learning from incomplete data via an EM approach »,
Advances in Neural Information Processing Systems 6, Morgan Kaufmann, p. 120-127,
1994.
Grinstead C., Snell J. (eds), Introduction to probability (Chapter 11), AMS, 1997.
Landgrebe D., Shahshahani B., « The effect of unlabeled samples in reducing the small sample
size problem and mitigating the hughes phenomenon », The Annals of Statistics, 1978.
Martinetz T., Schulten K., « Topology Representing Networks », Neural Networks, Elsevier
London, vol. 7, p. 507-522, 1994.
Miller D., Uyar S., « A generalized Gaussian mixture classifier with learning based on both
labelled and unlabelled data », Proceedings of the 1996 Conference on Information Science
and Systems, 1996.
Newman D., Hettich S., Blake C., Merz C., « UCI Repository of machine learning databases »,
1998.
Nigam K., McCallum A., Thrun S., Mitchell T., « Text classification from labeled and unlabeled
documents using EM », Machine Learning, vol. 39, n˚ 2, p. 103-134, 2000.
Rubinstein Y. D., Hastie T., « Discriminative vs Informative Learning », in H. M. D. Heckerman, D. Pregibon (eds), Proceedings of the Third International Conference on Knowledge
Discovery and Data Mining, AAAI Press, p. 49-53, 1997.
Schwartz G., « Estimating the dimension of a model », The Annals of Statistics, vol. 6, p. 461464, 1978.
Seeger M., Learning with labeled and unlabeled data, Technical report, University of Edinburgh,
2001.
Szummer M., Jaakkola T., « Partially labeled classification with markov random walks », in
Z. G. T. Dietterich, S. Becker (ed.), Advances in Neural Information Processing Systems
14, MIT Press, Cambridge, MA, p. 945-952, 2002.
Zhou D., Bousquet O., Lal T., Weston J., Schölkopf B., « Learning with Local and Global
Consistency », in S. Thrun, L. Saul, B. Schölkopf (eds), Advances in Neural Information
Processing Systems 16, MIT Press, Cambridge, MA, 2004.
Zhu X., Ghahramani Z., Lafferty J., « Semi-supervised learning using Gaussian fields and harmonic functions », Proceedings of the 20nd International Conference on Machine Learning,
p. 912-919, 2003.
22
ISI
Zhu X., Lafferty J., « Harmonic mixtures : combining mixture models and graph-based methods
for inductive and scalable semi-supervised learning », Proceedings of the 22nd International
Conference on Machine Learning, ACM, New York, USA, p. 1052-1059, 2005.
Annexe
Dans cette section, nous fournissons la preuve de la convergence de l’algorithme
de propagation.
Lemme 1 S’il existe un composant par composante connexe du graphe ayant un potentiel différent de 0, alors les valeurs propres de la matrice P sont dans ] − 1, 1[.
Preuve 1 (Preuve du lemme 1) Supposons qu’il existe une seule composante dans le
graphe et un seul composant du modèle de mélange gaussien tel que Vn > 0. Sans
perte de généralité on peut supposer qu’il s’agit du N e . Alors toutes les lignes de
la matrice P ont une somme égale à 1 sauf la dernière qui vaut VN . Considérons la
matrice Q de taille (N + 1) × (N + 1) :
P A
Q=
[23]
0 1
où A = (0, ..., 0, 1 − VN )T et où 0 = (0...0).
La matrice Q étant par construction stochastique, le module de ses valeurs propres
est inférieur ou égal à 1.
Si l’on développe det(Q − λI) en utilisant la dernière colonne, on obtient que
le polynôme caractéristique CQ de la matrice Q s’exprime en fonction du polynôme
caractéristique CP de la matrice P : CQ (λ) = (1 − λ)CP (λ) − (1 − VN )det(B),
où B est la matrice carrée dont les n − 1 premières lignes sont les n − 1 premières
lignes de P et dont la dernière ligne n’est formée que de 0. Ainsi, det(B) = 0 et
CQ (λ) = (1 − λ)CP , de telle sorte que les valeurs propres de la matrice Q soient 1
plus celles de la matrice P.
Puisque le graphe est connexe alors la matrice Q est irréductible et l’état N + 1
est le seul état absorbant de la chaîne de Markov associée à la matrice Q. Ainsi, pour
N
+1
X
tout état initial v = [v1 , ..., vN +1 ] tel que vi ≥ 0 ∀i ∈ {1, ..., N + 1} et
vi = 1,
i=1
on a lim vQt = [0, ..., 1]. Ceci implique que la valeur propre 1 de la matrice Q a
t→∞
une multiplicité égale à 1 (Grinstead et al., 1997) et donc toutes les autres (celles de
P) ont un module inférieur à 1.
Si le graphe n’est pas connexe, la matrice P peut être transformée en matrice
bloc, chaque bloc correspondant alors à une composante connexe. Le raisonnement
est alors identique sur chaque sous-matrice. De manière similaire, on montre le même
résultat lorsqu’il existe plusieurs composants ayant un potentiel Vn > 0.
Un graphe génératif pour la classification
23
Preuve 2 (Preuve de la convergence) D’après le schéma itératif, on a :
Y (t+1)
= [(1 − W) ⊗ P]t Y (0) +
Pt
q=1 ((1
− W) ⊗ P)q (V ⊗ Y (0) )
[24]
D’après le lemme 1, les valeurs propres de ((1 − W) ⊗ P) sont dans ] − 1, 1[.
Ainsi, lim [(1 − W) ⊗ P]t = 0 et :
t→∞
lim
t→∞
t
X
[(1 − W) ⊗ P]q
= [I − (1 − W) ⊗ P]−1
[25]
q=1
L’algorithme converge donc vers :
β∗
= lim Y (t)
t→∞
= [I − (1 − W) ⊗ P]−1 (V ⊗ Y (0) )
[26]
S ERVICE ÉDITORIAL – H ERMES -L AVOISIER
14 rue de Provigny, F-94236 Cachan cedex
Tél. : 01-47-40-67-67
E-mail : [email protected]
Serveur web : http://www.revuesonline.com
ANNEXE POUR LE SERVICE FABRICATION
A FOURNIR PAR LES AUTEURS AVEC UN EXEMPLAIRE PAPIER
DE LEUR ARTICLE ET LE COPYRIGHT SIGNE PAR COURRIER
LE FICHIER PDF CORRESPONDANT SERA ENVOYE PAR E-MAIL
1. A RTICLE POUR LA REVUE :
ISI
2. AUTEURS :
Pierre Gaillard * — Michaël Aupetit ** — Gérard Govaert ***
3. T ITRE DE L’ ARTICLE :
Un graphe génératif pour la classification semi-supervisée
4. T ITRE ABRÉGÉ POUR LE HAUT DE PAGE MOINS DE 40 SIGNES :
Un graphe génératif pour la classification
5. DATE DE CETTE VERSION :
3 février 2010
6. C OORDONNÉES DES AUTEURS :
– adresse postale :
* CEA, DAM, DIF, F-91297 Arpajon, France
[email protected]
** CEA, LIST, F-91191 Gif-sur-Yvette, France.
[email protected]
** UTC, U.M.R. C.N.R.S. 6599 Heudiasyc, 60205 Compiègne Cedex,
France
[email protected]
– téléphone : 00 00 00 00 00
– télécopie : 00 00 00 00 00
– e-mail : publisher
7. L OGICIEL UTILISÉ POUR LA PRÉPARATION DE CET ARTICLE :
LATEX, avec le fichier de style article-hermes.cls,
version 1.23 du 17/11/2005.
8. F ORMULAIRE DE COPYRIGHT :
Retourner le formulaire de copyright signé par les auteurs, téléchargé sur :
http://www.revuesonline.com
S ERVICE ÉDITORIAL – H ERMES -L AVOISIER
14 rue de Provigny, F-94236 Cachan cedex
Tél. : 01-47-40-67-67
E-mail : [email protected]
Serveur web : http://www.revuesonline.com
Téléchargement