Un graphe génératif pour la classification semi-supervisée Pierre Gaillard * — Michaël Aupetit ** — Gérard Govaert *** * CEA, DAM, DIF, F-91297 Arpajon, France [email protected] ** CEA, LIST, F-91191 Gif-sur-Yvette, France. [email protected] ** UTC, U.M.R. C.N.R.S. 6599 Heudiasyc, 60205 Compiègne Cedex, France [email protected] Nous proposons un nouvel algorithme semi-supervisé qui combine un modèle de mélange gaussien pour modéliser localement les données, et un graphe génératif construit sur les composants du mélange pour capturer la structure globale des données. La combinaison est réalisée via un processus de propagation d’étiquettes au travers du graphe. Contrairement aux algorithmes de l’état de l’art, le modèle de graphe utilisé est génératif de telle sorte que son optimisation peut être effectuée à l’aide de l’algorithme EM (Espérance-Maximisation) afin de maximiser sa vraisemblance. De plus, l’unique méta-paramètre (le nombre de composants du mélange) peut être sélectionné par un critère statistique. L’algorithme obtient des résultats expérimentaux similaires aux algorithmes comparables lorsque le nombre de données étiquetées est faible, et offre l’avantage de n’avoir aucun paramètre à régler manuellement. RÉSUMÉ. We introduce a new semi-supervised algorithm based on a generative model. This model combines a Gaussian mixture model and a generative graph built on the components of this mixture. The combination corresponds to refit the class membership of the mixture component with a propagation process. Both models can be optimized under the maximum likelihood framework and the only hyper-parameter (number of components of the mixture) can be selected with a statistical criterion. Experimental results show that we achieve accuracies comparable to those of rival state-of-the-art algorithms when few labeled data are available. Moreover, it offers the advantage of defining an objective statistical criterion for tuning its parameters, cancelling the need for arbitrary hand-tuning. ABSTRACT. MOTS-CLÉS : apprentissage semi-supervisé ; modèle de mélange ; graphe génératif ; propagation ISI, pages 0 à 0 Un graphe génératif pour la classification KEYWORDS: semi-supervised learning ; mixture model ; generative graph ; label spreading 1 2 ISI 1. Introduction 1.1. Apprentissage semi-supervisé ` Etant donné un ensemble de données étiquetées D` = {(xi , yi )}M i=1 , où xi ∈ X ⊂ R est une donnée observée et yi ∈ {1, ..., K} son étiquette parmi un choix de K classes, l’objectif des approches supervisées est de modéliser la relation existant entre les données et leur étiquette de manière à répondre à la question suivante : connaissant une nouvelle donnée, quelle est l’étiquette associée ? Malheureusement, dans de nombreuses applications, s’il est aisé d’obtenir les données grâce à un système d’acquisition automatisé, le processus d’étiquetage est quant à lui généralement long et coûteux puisqu’il requiert les efforts et l’expérience d’un expert du domaine. Afin de réduire le besoin de données étiquetées, les algorithmes d’apprentissage dits semi-supervisés, qui apprennent un classifieur à partir de données étiquetées et non-étiquetées, ont fait l’objet de nombreux travaux ces dernières années (Chapelle et al., 2006). D Par la suite, on note Du l’ensemble des Mu données non-étiquetées, Du = M` u {xi }M i=1 et D` l’ensemble des M` données étiquetées, D` = {(xi , yi )}i=1 . Le nombre total de données est : M = Mu + M` , avec Mu >> M` . Lorsqu’on dispose de peu de données étiquetées, l’idée générale des approches semi-supervisées est d’exploiter la structure géométrique de la distribution des données observées P (x), qui est fournie par les seules données non-étiquetées. Ceci provient de deux hypothèses généralement admises (Chapelle et al., 2003). – Hypothèse locale : si deux données sont proches dans une zone de forte densité, alors elles devraient appartenir à la même classe, ce qui implique que la frontière de décision doit passer par des régions de faible densité. – Hypothèse globale : les données sont proches d’un ensemble de variétés dont la dimension intrinsèque est plus faible que la dimension de l’espace d’observation. Puisque les variétés définissent des chemins de forte densité, on obtient par transitivité de la première hypothèse que des données issues de la même variété devraient appartenir à la même classe (Bousquet et al., 2004). 1.2. Plan Dans les deux Sections suivantes, nous présentons les différents algorithmes de l’état de l’art en les caractérisant comme étant soit génératifs, soit discriminatifs (Rubinstein et al., 1997). La section 2 introduit les approches génératives qui tentent de décrire le processus de génération des données (et donc les variétés) en estimant la distribution jointe P (x, y). La section 3 introduit les approches discriminatives qui ont pour seul objectif de définir une fonction h, liant les données et les étiquettes (y = h(x)) de manière à minimiser une erreur de classification. Nous verrons au travers de cette section comment ces approches utilisent un graphe de proximité construit sur les données pour capturer la géométrie des variétés. Un graphe génératif pour la classification 3 Dans la section 3 nous proposons un nouvel algorithme semi-supervisé basé sur un modèle de mélange gaussien (Miller et al., 1996) et sur le graphe génératif gaussien (Aupetit, 2006). Nous comparons dans la section 4 les performances des différents algorithmes avant de conclure dans la section 5. 2. Approches génératives 2.1. Modèles de mélange Dans le contexte de l’apprentissage semi-supervisé, les modèles génératifs ont largement été utilisés et étudiés puisqu’ils permettent de modéliser les densités P (x, y) et P (x). La structure complexe des données est localement capturée à l’aide d’une somme finie et pondérée de densités simples et usuelles. Par exemple, Landgrebe et al. (1978) et Nigam et al. (2000) utilisent respectivement un modèle de mélange de densités gaussiennes et multinomiales pour la classification d’images et de textes. Miller et al. (1996) proposent un modèle de mélange gaussien, où chaque densité est associée à une ou plusieurs classes : p(x, y; θ) = N X p(n)p(y|n)p(x|n) = n=1 N X πn βny g(x|wn ; Σn ) [1] n=1 où θ est l’ensemble des paramètres du modèle décrit ci-dessous. Les densités gaussiennes g sont appelée les composants du mélange et elles sont paramétrées par leur moyenne wn ∈ RD et leur matrice de covariance Σn ∈ RD × RD : 1 g(x|wn ; Σn ) = exp −(x − wn )T Σ−1 [2] n (x − wn ) D/2 1/2 (2π) |Σn | où |Σn | est le déterminant de la matrice de covariance Σn . Les paramètres π = {πn }N n=1 représentent les proportions de chaque densité gaussienne dans le mélange : πn est la probabilité qu’une donnée soit issue du ne composant. Elles vérifient les deux contraintes suivantes : N X πn = 1 et πn ≥ 0 ∀ n [3] n=1 Les paramètres β = {βnk = p(y = k|n)|∀n, k} représentent la probabilité qu’une donnée observée x soit de la classe k sachant qu’elle est issue du ne composant. Les paramètres β vérifient donc : K X k=1 βnk = 1 ∀n et βnk ≥ 0 ∀ n, k [4] 4 ISI En utilisant ce modèle paramétrique, on peut facilement utiliser les données nonétiquetées pour exprimer la densité p(x; θ). Pour cela, il suffit de marginaliser la denPK sité jointe p(x, y; θ) par rapport à y. En utilisant le fait que k=1 βnk = 1 pour tout n = {1, ..., N }, on a : p(x; θ) = K X p(x, y = k) = N X πn g(x|wn ; Σn ) [5] n=1 k=1 2.2. Estimation des paramètres Le critère naturel pour estimer les paramètres du modèle est la vraisemblance jointe des données étiquetées et non-étiquetées, qui s’exprime comme le produit des deux vraisemblances puisque les données sont supposées i.i.d (indépendantes et identiquement distribuées) (Seeger, 2001). Les estimateurs du maximum de vraisemblance des paramètres peuvent être déterminés aisément à l’aide de l’algorithme EM (Dempster et al., 1977). L(θ; D` , Du ) = L(θ; D` ) L(θ; Du ) = M Ỳ i=1 p(xi , yi ; θ) Mu Y p(xi ; θ) [6] i=1 2.3. Discussion sur les approches génératives Les modèles de mélange présentent plusieurs avantages : (1) ils respectent par construction l’hypothèse locale ; (2) ils permettent par nature de classifier via la règle de Bayes des données non disponibles lors de l’apprentissage : on parle d’induction ; (3) le seul méta-paramètre (le nombre de composants N ) peut être facilement sélectionné par validation croisée ou à l’aide d’un critère statistique tel que BIC (Schwartz, 1978) ; (4) ils sont capables, à l’aide de l’algorithme EM, de traiter des données incomplètes (Ghahramani et al., 1994). En revanche, même si les modèles de mélange modélisent bien les données localement, ces méthodes ne prennent pas en compte la structure sous-jacente des données puisqu’aucune relation géométrique entre les différents composants n’est définie. Lorsque les variétés sont complexes, l’hypothèse globale ne peut pas être prise en compte avec des densités simples (figure 1). 3. Approches discriminatives La plupart des approches discriminatives apprennent un classifieur h en prennant en compte la structure des données via un graphe de proximité des données. Couramment, il s’agit du graphe des k plus proches voisins. Plus précisément, la Un graphe génératif pour la classification (a) 5 (b) Figure 1. Apprentissage semi-supervisé des modèles de mélange (Miller et al., 1996). (a) On dispose d’un ensemble de données partiellement étiquetées issues de deux variétés représentant des demi-cercles. Seules deux données (une de chaque classe) sont étiquetées et sont représentées par ∇ (classe 1) et ∆ (classe 2). On souhaite qu’un algorithme d’apprentissage semi-supervisé puisse étiqueter les données suivant ces deux variétés. (b) La densité est estimée par un modèle de mélange gaussien après maximisation de la vraisemblance. La couleur des gaussiennes code le degré d’appartenance à une classe. Elle est proportionnelle à maxy βny = p(y|n), de telle sorte qu’un composant rouge signifie p(y = 1|n) = 1 et un composant bleu signifie p(y = 2|n) = 1. Ainsi, lorsqu’un composant se situe près d’une donnée étiquetée, il représente avec une forte probabilité une seule classe. A l’inverse, lorsque le composant ne représente que des données non-étiquetées, sa classe est incertaine : βny ≈ 12 . La frontière de décision induite par le modèle de mélange est tracée en noire. Le modèle de mélange n’est donc pas capable d’étiqueter correctement les deux variétés. quantité essentielle utilisée lors de cette section est le Laplacien du graphe (ChungGraham, 1997). Définition 1 [Laplacien d’un graphe] Soit un graphe G(w, E) composé de N sommets w et dont les liens E sont pondérés par W : E → R+ . Soit la matrice d’adjacence pondérée du graphe G : W (e) si e = (a, b) ∈ E Wab = [7] 0 si e = (a, b) ∈ /E PN Soit la matrice diagonale des degrés Dii = j=1 Wij . Alors, le Laplacien du graphe et le Laplacien normalisé du graphe sont donnés respectivement par : L =D−W L = I − D−1/2 WD−1/2 , où I est la matrice identité Généralement, les pondérations W sont choisies parmi deux types. [8] 6 ISI – Binaires : W (e) = 1 si e = (a, b) ∈ E et 0 sinon. 2 a −wb || – Gaussiennes : W (e) = exp −||w2σ si e = (a, b) ∈ E et 0 sinon. 2 Le laplacien permet d’exprimer la régularité du classifieur h par rapport à la variété structurant les données. En effet, on prouve que si les données sont distribuées sur une Z variété M selon P (x), alors sous certaines conditions, le terme de régularisation M ||∇M h(x)||2 dP (x) (où ∇ dénote le gradient) peut être approché à l’aide du laplacien du graphe par : h L hT , où h = [h(x1 ), ..., h(xM )] (Belkin et al., 2005). Sur ce fondement, plusieurs algorithmes ont été développés parmi lesquels on peut citer les algorithmes de propagation (Chapelle et al., 2006). Les approches de propagation diffusent les étiquettes disponibles au travers d’un graphe construit sur toutes les données (Szummer et al., 2002; Zhu et al., 2003; Zhou et al., 2004). Ces algorithmes définissent un schéma itératif où la diffusion d’une étiquette se fait par l’intermédiaire d’une matrice de transition P qui code la similarité entre deux données. Dans cette section, les étiquettes sont codées par une matrice Y qui est définie par : 1 si xi ∈ D` tel que yi = k Yik = [9] 0 sinon Zhou et al. (2004) utilisent le processus itératif décrit par l’algorithme 1. A chaque itération de la propagation, l’étiquette d’une donnée change en recevant une contribution des autres données (pondérée par la matrice de transition P) et une contribution de sa valeur initiale. Dans cet algorithme, la matrice de transition est le Laplacien normalisé d’un graphe de proximité des données. Zhu et al. (2003) proposent un algorithme similaire appelé Propogation Harmonique (PH). La matrice de transition P est définie par P = D−1 W, où W est la matrice de pondérations des liens d’un graphe de proximité construit sur toutes les données et D est la matrice diagonale des degrés. De plus, la contribution des valeurs initiales est omise (α = 0) et la classe des données étiquetées est contrainte à rester identique au cours de l’algorithme de propagation (Figure 2). Zhu et al. (2003) montrent que ce dernier algorithme converge et ne dépend pas des valeurs initiales des étiquettes des données non-étiquetées. La solution obtenue est équivalente à minimiser la fonction d’énergie E(Y ) suivante : E(Y ) = arg min Y T LY Y avec Yik = 1 si yi = k pour xi ∈ D` [10] où L = D − W est le Laplacien du graphe. En annulant la dérivée de la fonction d’énergie E (7), on obtient que la solution doit statisfaire LY = 0 pour les données non-étiquetées et Yik = 1 pour les données étiquetées de la classe k. Notons que dans ces deux algorithmes, la fonction de décision est uniquement définie sur les données présentes lors de l’apprentissage : on parle dans ce cas de transduction. Un graphe génératif pour la classification 7 Algorithme 1 Algorithme de propagation (Zhou et al., 2004) Entrées : P, y Initialisation : (0) si xi ∈ D` , Yik = 1 si yi = k et 0 sinon. (0) si xi ∈ Du , Yik = 0. choisir α ∈ [0, 1[ Tant que non convergence, répéter : Y (t+1) = αPY (t) + (1 − α)Y (0) Fin tant que Sortie : associer à xi l’étiquette arg maxk (Yik ) (a) t = 20 (b) t = 100 (c) t = 300 (d) t = ∞ Figure 2. Propagation Harmonique (Zhu et al., 2003). Evolution des étiquettes lors de la propagation harmonique via un graphe des 10 plus proches voisins. La couleur des données est proportionnelle à maxk (Yik ). 8 ISI (a) (b) Figure 3. Harmonique Mixture Model (Zhu et al., 2005). (a) Un modèle de mélange gaussien est utilisé pour modéliser les données localement. (b) Les paramètres β qui représentent l’appartenance d’un composant à une classe sont ensuite optimisés de manière à être harmoniques par rapport au Laplacien du graphe des 10 plus proches voisins. 3.1. Harmonic Mixture Model Récemment, Zhu et al. (2005) ont proposé un algorithme appelé Harmonic Mixture Model (HMM), qui combine un modèle supervisé de mélange gaussien et une approche de diffusion afin d’obtenir un modèle inductif (Figure 3). Les données sont tout d’abord représentées localement en utilisant un modèle de mélange gaussien (1). Ce modèle définit la base du classifieur : il est donc inductif. Cependant, afin de tenir compte de la structure de données, l’estimation des paramètres β est modifiée de manière à ce qu’ils soient harmoniques (Zhu et al., 2003) sur un graphe de proximité construit sur toutes les données. Ayant construit ce graphe et calculé son Laplacien L, les paramètres β optimaux sont déterminés en résolvant un problème d’optimisation convexe sous contraintes : ( min Y T LY avec Yik = 1 si yi = k pour xi ∈ D` β [11] 0 ≤ βnk ≤ 1 ∀ n = 1, ..., N , k = 1, ..., K où pour les données non-étiquetées P (xi ∈ Du ), Yik est estimée à l’aide du modèle de N mélange : Yik = p(yi = k|xi ; θ) = n=1 βnk p(n|xi ; θ) 3.2. Discussion sur les approches discriminatives Dans toutes ces approches discriminatives, l’hypothèse globale est prise en compte à l’aide d’un graphe pondéré construit sur les données. Cependant, le choix des paramètres du graphe (k et les pondérations des liens) impacte grandement les résultats (figure 4). Ceci est peut être dû à la sensibilité de ces graphes au bruit, comme le reportent Carreira-Perpiñán et al. (2005). La même remarque tient pour les autres Un graphe génératif pour la classification 9 méta-paramètres qu’il faut régler. Par exemple, l’algorithme de propagation de Zhou et al. (2004) dépend du paramètre α qui pondère l’importance de la contribution des étiquettes initiales. Malheureusement, lorsque le nombre de données étiquetées est faible, il n’y a pas de critère objectif permettant de choisir ces paramètres puisque la validation croisée est inadaptée : le paramétrage de ces algorithmes est donc heuristique comme le soulignent Zhou et al. (2004). 4. Graphe Gaussien Génératif Semi-supervisé Pour éviter un réglage manuel et arbitraire des méta-paramètres, nous proposons un nouvel algorithme semi-supervisé que l’on appelle le Graphe Gaussien Génératif Semi-Supervisé (GGGSS). De manière similaire à l’algorithme Harmonic Mixture Model, les données sont représentées localement à l’aide d’un modèle de mélange gaussien où chaque composant peut représenter les différentes classes. Afin de tenir compte de la structure des données, nous proposons d’utiliser un modèle de graphe génératif gaussien. Celui-ci étant construit sur les composants du modèle de mélange et non sur les données, il permet de définir des chemins de densité entre les composants. Enfin, nous utilisons un processus de propagation le long des liens de ce graphe pour optimiser l’appartenance des composants aux classes. L’idée est de propager les étiquettes d’autant plus vite que la densité modélisée par les liens génératifs est forte. Le modèle de mélange et le graphe sont tous les deux des modèles génératifs de telle sorte que leur optimisation peut être effectuée via l’algorithme EM. Le seul métaparamètre du modèle est le nombre de composants qui peut être sélectionné par un critère statistique. L’algorithme est illustré par la figure 5. 4.1. Modèle local Afin de respecter l’hypothèse locale, nous utilisons un modèle de mélange gaussien (Miller et al., 1996) (cf équation [1]). L’optimisation des paramètres du modèle est effectuée de manière à maximiser la vraisemblance jointe de données étiquetées et non étiquetées à l’aide de l’algorithme EM. Le seul méta-paramètre est le nombre de composants N du mélange. Pour l’estimer, nous utilisons le critère BIC (Schwartz, 1978), qui consiste à retenir le modèle qui maximise le critère de vraisemblance pénalisée suivant : N ∗ = arg max log(L) − N =1,2,... ν log(M ) 2 [12] où L est le maximum de vraisemblance du modèle, M est le nombre total de données et ν est le nombre de paramètres libres du modèle. 10 ISI Propagation Harmonique Harmonique Mixture Model (a) k = 5 (d) k = 10 (b) k = 6 (e) k = 15 (c) k = 8 (f) k = 24 Figure 4. Paramètrage des approches semi-supervisées. Pour ces exemples, on utilise les mêmes variétés que précédemment en augmentant légèrement la variance du bruit gaussien. On remarque que les résultats des méthodes de propagation varient fortement en fonction de la valeur k choisie pour construire le graphe des k plus proches voisins. Notons qu’il n’existe pas de critères pour régler ce paramètre lorsque le nombre de données étiquetées est faible. A gauche, le modèle est transductif : on ne peut pas étiqueter une nouvelle donnée sans relancer la propagation. A droite, le modèle est inductif : il génère une fonction de décision définie sur l’ensemble du domaine X, ce qui permet d’étiqueter une nouvelle donnée sans relancer la propagation. Un graphe génératif pour la classification (a) (b) (c) (d) 11 Figure 5. Illustration du graphe génératif semi-supervisé : (a) Un modèle de mélange gaussien est utilisé pour modéliser les données localement. (b) Densité estimée par le graphe génératif après optimisation de la vraisemblance. Le graphe choisi pour le support de la densité est la TDI (Triangulation de Delaunay Induite) construit par l’algorithme CHL (Competitive Hebbian Learning). Les paramètres β du modèle de mélange sont ré-optimisés en les propageant le long des liens du graphe génératif. Le sens et la force de propagation sont illustrés par la figure (c). (d) Après propagation, on obtient un nouveau modèle de mélange permettant d’étiqueter correctement les deux variétés. Pour cet exemple, la fonction de décision est similaire à celle obtenue avec l’algorithme Harmonic Mixture Model (HMM) (Zhu et al., 2005), lorsqu’on définit pour celui-ci un graphe approprié (figure 4 (e)). Cependant, lorsqu’on dispose uniquement de deux données étiquetées, l’algorithme HMM ne dispose d’aucun critère permettant de choisir ce graphe. 4.2. Modèle global Afin de tenir compte de la structure des données, nous proposons d’utiliser un graphe, non pas construit sur les données, mais sur l’ensemble w = {wn ∈ RD }N n=1 défini par les composants du modèle de mélange local. Puisque nous sommes intéressés par caractériser les chemins de densité que définissent les variétés (hypothèse globale), nous estimons la densité P (x) à l’aide d’un graphe génératif (Aupetit, 2006). 12 ISI Etant donné un graphe G(w, E) qui connectent w, on associe à chaque lien du graphe la densité de probabilité suivante : 2 h(xi |[wa , wb ]; σ ) 1 = Lab Z wb g(xi |t; σ 2 ) dt Z wb 1 (xi −t)2 = exp − dt D 2σ 2 (2πσ 2 ) 2 Lab wa wa [13] où Lab = kwb −wa k. Cette densité correspond à une somme infinie de densités gaussiennes isovariées uniformément distribuées le long d’un segment (wa , wb ) ∈ RD×2 . Enfin, de manière similaire à un mélange classique, on constitue un modèle de graphe génératif en combinant linéairement les densités supportées par les liens du graphe G(w, E). X αe h(xi |e; σ 2 ) [14] p(xi ; Θ, G(w, E)) = e∈E Les estimations du maximum de vraisemblance des paramètres Θ = (α, σ 2 ) sont déterminées par l’algorithme EM1 en considérant toutes les données comme non étiu +M` quetées : x = {xi }M . i=1 Plusieurs graphes peuvent constituer la base de ce modèle génératif. Nous suggérons de choisir la Triangulation de Delaunay Induite puisque celui-ci contient généralement tous les chemins de densité d’intérêt. Ce graphe se construit par l’algorithme Competitive Hebbian Learning (CHL) (algorithme 2) qui consiste à connecter deux composants w` et wj s’ils sont les deux plus proches d’une donnée observée xi ∈ x. Algorithme 2 Competitive Hebbian Learning (Martinetz et al., 1994) Entrées : x, w E ← ∅ (liste des liens) Pour i = 1, ..., M faire ` = arg minj {||xi − wj ||2 ; wj ∈ w} n = arg minj {||xi − wj ||2 ; wj ∈ w \ {w` }} E ← E ∪ {wn , w` } Fin Sortie : E 4.3. Propagation L’objectif est de combiner l’information locale et globale. Nous souhaitons propager l’appartenance des composants du modèle local aux classes en tenant compte : 1. Les équations sont disponibles dans l’article de Aupetit (2006) Un graphe génératif pour la classification 13 – de leur proximité (au sens de la densité) dans la structure globale définie par le graphe génératif : plus la densité est élevée le long d’un lien (plus αe est grand), plus la propagation doit être forte. – du degré d’appartenance aux classes, en favorisant la propagation des étiquettes des composants ayant une probabilité βny = p(y|n) proche de 1, vers des composants 1 dont l’étiquette est incertaine (βny = p(y|n) proche de K ). Afin de tenir compte de la proximité au sens de la densité, nous définissons la matrice d’adjacence pondérée des composants par : ( αe si e = (a, b) ∈ E Lab [15] Wab = 0 sinon De manière similaire à la Propagation Harmonique (Zhu et al., 2003), la matrice de transition P est définie par : P = D−1 W où D est la matrice diagonale des degrés : Dnn = [16] PN j=1 Wnj . Afin de tenir compte du degré d’appartenance aux classes, nous utilisons l’approche de Zhou et al. (2004) : plus un composant est incertain, plus il recevra une contribution des composants voisins. Ainsi, nous associons à chaque composant une étiquette initiale Y (0) et un potentiel V . L’étiquette est déterminée par la règle du maximum a posteriori : ( 1 si arg max βny = k (0) y Ynk = [17] 0 sinon Le potentiel d’un composant est proportionnel au degré d’appartenance à l’étiquette qu’il représente. Il correspond à la propension d’un composant à changer d’étiquette, ce qui peut être vu comme une forme d’inertie. Le potentiel varie entre 0 et 1 de telle sorte que plus il est proche de 0, plus l’étiquette du composant correspondant dépendra de l’étiquette des composants voisins. Le potentiel Vn est donc défini par : 1 K max βny − [18] Vn = y (K − 1) K Le potentiel Vn joue alors le rôle de (1 − α) dans l’algorithme 1. Cependant, dans ce dernier, le terme (1 − α) est égal pour toutes les données alors que dans notre propagation, chaque composant a un potentiel différent. En utilisant ce principe, le schéma itératif de propagation est défini par : Y (t+1) = [(1 − W) ⊗ P]Y (t) + V ⊗ Y (0) [19] 14 ISI Le symbole ⊗ dénote la multiplication terme à terme et 1 est la matrice de taille N ×N dont tous les éléments valent 1. W est la matrice carrée définie par Wnj = Vn pour tout j = 1, ..., N et V est la matrice diagonale définie par Vnn = Vn pour tout n = 1, ..., N . (t+1) Notons qu’à chaque étape, il est simple de vérifier que Ynk satisfait les deux PK (t+1) (t+1) conditions 0 ≤ Ynk ≤ 1 et k=1 Ynk = 1, et que ce mode de propagation répond aux propriétés souhaitées. En particulier, un composant ayant une étiquette certaine (maxy βny = 1) a un potentiel égal à 1, de telle sorte que son étiquette ne 1 ) sera pas modifiée. A l’inverse, un composant entièrement incertain (maxy βny = K (t+1) sera une somme pondérée des a un potentiel égal à 0, et à l’issue de l’itération, Yny (t) étiquettes Yjy de ses composants voisins j. La preuve de la convergence de l’algorithme est similaire à celle fournie par Zhou et al. (2004), et on montre que (voir annexe) : β∗ = lim Y (t) = [I − (1 − W) ⊗ P]−1 V ⊗ Y (0) t→∞ [20] Pour démontrer la convergence de l’algorithme 1, Zhou et al. (2004) s’appuient sur le fait que la matrice de propagation P est une matrice stochastique et que par conséquent ses valeurs propres sont dans [−1, 1]. Ainsi, choisissant α ∈ [0; 1[, les valeurs propres de αP sont dans ] − 1, 1[, propriété qui fonde la preuve de la convergence. Dans notre cas, il faut donc démontrer que les valeurs propres de la matrice P = (1 − W) ⊗ P sont aussi dans ] − 1, 1[. On peut montrer que c’est le cas, s’il existe au moins un composant du modèle de mélange gaussien par composante connexe du graphe qui a un potentiel différent de 0, c’est-à-dire un composant qui 1 n’est pas entièrement incertain : maxy βny > K . 4.4. Classification Le classifieur final est défini par le modèle de mélange gaussien initial dont les paramètres β ont été optimisés suivant l’équation (17) : p(x, y; θ) = N X ∗ πn βny g(x|wn ; Σn ) [21] n=1 On peut ainsi étiqueter une (nouvelle) donnée à l’aide de la règle de Bayes : ŷ = h(x) = arg max p(y = k|x) = arg max p(x, y = k) k∈Y k∈Y [22] 4.5. Algorithme L’algorithme du Graphe Gaussien Génératif Semi-Supervisé (GGGSS) est décrit ci-dessous. Un graphe génératif pour la classification 15 Algorithme 3 Graphe Gaussien Génératif Semi-Supervisé Entrées : D` , D` Etape locale : Estimer les paramètres θ = (π, w, β, Σ) d’un modèle de mélange gaussien à N composants (Miller et al., 1996). N est déterminé en maximisant le critère BIC. Etape globale : Utiliser l’algorithme CHL pour construire la TDI (algorithme 2). Estimer les paramètres optimaux (α, σ 2 ) du graphe génératif (Aupetit, 2006). Propagation : Ré-estimer les paramètres β ∗ avec (17). Classification : Classifier les données non-étiquetées avec (19). Sortie : 4.6. Comparaison avec l’état de l’art L’algorithme présenté peut être vu comme une version squelette des algorithmes de propagations usuels : on résume les données par un ensemble de prototypes w, on construit un graphe des prototypes et on propage les étiquettes des prototypes le long des liens de ce graphe. Enfin, on attribue aux données, l’étiquette du prototype qui les représente. L’algorithme GGGSS est donc similaire aux algorithmes de propagation de l’état de l’art mais : – les données correspondent aux prototypes ; – l’appartenance aux classes n’est pas binaire (0 ou 1) mais continue (β ∈ [0, 1]) ; – les pondérations d’un lien du graphe ne sont plus uniquement fonction de la distance entre ses sommets mais aussi fonction de la densité entre ses sommets. De plus, l’algorithme est inductif de telle sorte qu’il puisse traiter de nouvelles données. Ceci n’est généralement pas le cas pour les méthodes à base de graphes puisqu’ils sont transductifs par nature (Szummer et al., 2002; Zhu et al., 2003; Zhou et al., 2004). De plus, l’algorithme peut facilement être utilisé en présence de données incomplètes. En effet, le modèle de mélange gaussien ainsi que le graphe génératif permettent de prendre en compte ce cas au travers de l’algorithme EM2 . La différence majeure concerne la sélection de modèle. Nous proposons de remplacer la sélection supervisée réalisée généralement par la validation croisée (qui pose problème lorsque peu de données étiquetées sont disponibles) par un critère semi-supervisé (le critère BIC) qui ne souffre pas d’un manque de données étiquetées. Le tableau 1 résume ces différences. 2. Dans ce cas, la TDI ne peut plus être utilisée puisque sa construction nécessite des données complètes : le graphe de Delaunay des prototypes est alors une solution possible. 16 ISI Classifieur Graphe construit sur des type de graphe pondérations W Méta-paramètres Critère Complexité graphe propagation GGGSS inductif PH transductif HMM inductif prototypes TDI densité /distance N BIC données k-PPV distance k, W VC données k-PPV distance N , k, W VC O(N 2 M ) O(N 3 ) O(M 2 ) O(M 3 ) O(M 2 ) O(N 3 ) Tableau 1. Comparaison des algorithmes d’apprentissage semi-supervisé par propagation. Pour les algorithmes GGGSS, la Propagation Harmonique (PH) (Zhu et al., 2003) et l’Harmonic Mixture Model (Zhu et al., 2005) , nous indiquons le type de classifieur, les caractéristiques du graphe utilisé, leurs méta-paramètres, les critères de sélection (V C : validation croisée) ainsi que la complexité algorithmique pour construire le graphe et pour propager les étiquettes. Notons que pour le GGGSS et le HMM, il faut ajouter le temps nécessaire pour positionner les composants. 5. Expériences 5.1. Description des données Nous utilisons six ensembles de données ayant des caractéristiques différentes (tableau 2). Deux ensembles proviennent du l’ouvrage de Chapelle et al. (2006) et sont disponibles à l’adresse : http ://www.kyb.tuebingen.mpg.de/ssl-book/. – Digit 1 : 1500 images de taille 16 × 16 sont construites à partir d’une forme représentant le nombre "1" qui a été translaté, dilaté, bruité et pivoté. La classe est binaire y = {−1, 1} et elle est définie par l’angle de rotation. De plus, sur les 256 variables, seules 241 sont conservées. – USPS : 1500 images de taille 16 × 16 représentent des chiffres manuscrits. Les chiffres "2" et "5" forment la classe "-1" tandis que les autres chiffres correspondent à la classe "1". Ainsi, les classes sont déséquilibrées avec un rapport 1 :4. De la même manière que pour l’ensemble Digit 1, sur les 256 variables, seules 241 sont conservées. Quatre autres ensembles proviennent de l’UCI Repository of machine learning databases (Newman et al., 1998). – Pima : 8 caractéristiques physiologiques, telles que la masse corporelle et la pression artérielle, sont mesurées sur 768 femmes. L’objectif est de détecter si ces femmes ont le diabète. Les classes sont déséquilibrées puisque 500 femmes ont un test négatif. Les variables ont été centrées et réduites. Un graphe génératif pour la classification 17 – Ionosphere : 351 données définies par 34 variables correspondent à des signaux radar servant à analyser la ionosphère. La classe est binaire et correspond à la qualité des signaux (s’ils permettent ou non d’identifier la structure attendue de la ionosphère). – Breast cancer : 569 images d’une cellule d’un sein sont utilisées pour détecter la présence d’un cancer. La classification binaire est réalisée à l’aide de 10 caractéristiques issues d’un traitement d’image permettant d’extraire par exemple l’aire et le périmètre de la cellule. – Isolet (voyelles) : 150 personnes prononcent le nom de chaque voyelle de l’alphabet 2 fois. Chacun des 1800 sons est représenté par 617 variables telles que les coefficients spectraux. Afin de réduire la dimensionalité des données, nous conservons les projections des données sur les 190 axes principaux déterminés par l’ACP (Analyse en Composantes Principales). Ces axes expliquent près de 99% de la variance des données. Digit 1 USPS Pima Ionosphere Breast cancer Isolet M 1500 1500 768 351 569 1800 D 241 241 8 34 10 190 K 2 2 2 2 2 6 Commentaire artificiel déséquilibré déséquilibré multi-classes Tableau 2. Caractéristiques principales des données. Dans ce tableau, on indique le nombre de données M , leur dimensionnalité D et le nombre de classes K. 5.2. Méthodologie Pour démontrer la validité du Graphe Gaussien Génératif Semi-Supervisé (GGGSS), nous comparons les performances de l’algorithme avec 4 autres méthodes : le Modèle de Mélange Gaussien dont les paramètres sont appris de manière semisupervisée (Miller et al., 1996) (MMGSS), la Propagation Harmonique (PH) (Zhu et al., 2003), l’Harmonic Mixture Model (HMM) (Zhu et al., 2005) et le classifieur du plus proche voisin (1-PPV). Pour chaque ensemble de données, nous utilisons la méthodologie utilisée par Chapelle et al. (2006). Nous partageons l’ensemble d’apprentissage en deux, l’un contenant M` données étiquetées, et l’autre contenant les Mu = M − M` données non-étiquetées. On vérifie uniquement que dans l’ensemble des données étiquetées, il existe au moins une donnée de chaque classe. Les algorithmes d’apprentissage semisupervisés sont alors utilisés pour classifier les données non-étiquetées. Cette procédure est répétée 20 fois pour différents nombres M` de données étiquetées puis nous traçons (figure 6) la moyenne de bonne classification obtenue sur l’ensemble de don- 18 ISI nées non-étiquetées pour chaque valeur de M` . Pour les problèmes à 2 classes, le tableau 3 indique la valeur moyenne en pourcentage de l’aire sous la courbe ROC3 . Puisqu’aucun critère n’a été utilisé pour sélectionner un nombre approprié de composants, nous construisons le HMM et le GGGSS en utilisant le même MMGSS. Le nombre de composants N est déterminé à l’aide du critère BIC. Afin de renforcer l’hypothèse locale et éviter les problèmes numériques, le MMGSS est un modèle dont la variance est sphérique et commune à chaque composant. Afin de limiter les temps de calcul, le nombre de composants N est déterminé une fois pour toute, en considérant que toutes les données sont non-étiquetées. Pour les données Digit 1, USPS, Pima, Ionosphere, Breast cancer et Isolet, le nombre de composants N vaut respectivement : 51, 49, 15, 15, 20 et 21. Pour le HMM et la LP nous utilisons le graphe symétrique des 10 plus proches voisins (Zhu et al., 2003; Zhu et al., 2005) et la pondération des liens est réalisée via un noyau gaussien dont la variance est déterminée en utilisant l’heuristique proposée d par Chapelle et al. (2006) : σ = , où d est la distance moyenne entre une donnée et 3 sa 10e donnée la plus proche. 5.3. Résultats et analyses A l’aide de la figure 6, nous observons certaines tendances. – Le Graphe Génératif Gaussien Semi-Supervisé (GGGSS) et l’Harmonic Mixture Model (HMM) sont construits sur le même Modèle de Mélange Gaussien SemiSupervisé (MMGSS) et ont pour objectif d’améliorer ses performances en tenant compte de la structure des données. On observe qu’en effet, le GGGSS obtient généralement de meilleures performances que le MMGSS. Notons que ce phénomème s’amplifie lorsque la dimensionalité des données augmente (e, c, f). En revanche, ceci n’est pas toujours le cas pour le HMM. Par exemple, pour les données Breast cancer (a), la propagation réalisée par le HMM avec des paramètres heuristiques dégrade les performances du MMGSS. – Lorsque le nombre de données étiquetées augmente, le GGGSS tend vers la même solution que le MMGSS. En effet, la propagation n’influe plus sur le MMGSS, puisque dans ce cas, les composants représentent une classe presque sûrement : pour le MMGSS, cela signifie que leur potentiel vaut 1. – Lorsque le nombre de données étiquetées est faible (M` < 20), le GGGSS obtient généralement de meilleurs résultats que les autres algorithmes. 3. La courbe ROC (Receiver Operating Characteristic) permet d’étudier les variations de la spécificité (taux de bonne classification de la classe "-1") et de la sensibilité (taux de bonne classification pour la classe "1") d’un algorithme pour différentes valeurs du seuil de décision. Lorsque l’étiquette prédite par un classifieur h(x) est donnée par signe(h(x)), alors la courbe ROC trace pour différents seuils t, la sensibilité en fonction de (1-spécificité) pour la fonction de décision signe(h(x) + t) Un graphe génératif pour la classification 19 – Lorsque le nombre de données étiquetées est plus important (M` > 50), la Propagation Harmonique (PH) peut obtenir un taux de bonne classification supérieur au GGGSS (b et e), même avec un paramètrage heuristique. MMGSS PH HMM GGGSS Digit1 71.03 98.29 93.47 94.85 USPS 56.27 71.51 75.34 80.91 Pima 64.18 60.66 57.87 64.83 Ionosphere 82.44 70.00 79.02 84.49 Breast 97.71 94.77 96.48 98.39 Tableau 3. Aire moyenne (en %) sous la courbe ROC avec M` = 10 pour les différents problèmes de classification à deux classes. 6. Conclusion Dans cette article, nous introduisons un nouvel algorithme, appelé le Graphe Génératif Gaussien Semi-Supervisé. Afin de modéliser localement les données, nous utilisons un modèle de mélange gaussien (Miller et al., 1996), alors que l’échelle globale apparaît au travers d’un graphe génératif gaussien construit sur les composants du modèle de mélange. Ces deux modèles sont optimisés via l’algorithme EM (Dempster et al., 1977) de manière à maximiser leur vraisemblance. Les informations locale et globale sont ensuite combinées par un processus de propagation afin de ré-estimer l’appartenance des composants à chaque classe. Le nombre de composants est sélectionné par le critère BIC (Schwartz, 1978) qui utilise toutes les données (étiquetées ou non). Dans les expériences réalisées, l’algorithme proposé atteint des performances comparables ou supérieures aux algorithmes de l’état de l’art lorsque le nombre de données étiquetées est faible (le cadre typique d’applications des algorithmes semi-supervisés). De plus, il a l’avantage de définir des critères objectifs pour la sélection des paramètres, évitant ainsi un paramétrage arbitraire qui peut se révéler désastreux. Enfin, d’intéréssantes questions se posent sur le choix du modèle de bruit à utiliser (pour le modèle de mélange local comme pour le graphe) ainsi que sur l’apport de tels algorithmes lorsque l’hypothèse d’une structure sous-jacente n’est pas validée ou lorsque cette structure a une dimension intrinsèque très grande. 7. Bibliographie Aupetit M., « Learning Topology with the Generative Gaussian Graph and the EM Algorithm », in Y. Weiss, B. Schölkopf, J. Platt (eds), Advances in Neural Information Processing Systems 18, MIT Press, Cambridge, MA, p. 83-90, 2006. Belkin M., Niyogi P., « Towards a Theoretical Foundation for Laplacian-Based Manifold Methods », Learning Theoryp. 486-500, 2005. 20 ISI (a) BREAST (d) IONOSPHERE (b) PIMA (e) DIGIT 1 (c) USPS (f) ISOLET Figure 6. Résultats des algorithmes d’apprentissage semi-supervisé. Dans chaque figure, nous traçons le taux de bonne classification moyen sur 20 essais pour le Modèle de Mélange Gaussien Semi-Supervisé (MMGSS), le Graphe Génératif Gaussien Semi-Supervisé (GGGSS), l’Harmonic Mixture Model (HMM) (Zhu et al., 2005), la Propagation Harmonique (PH) (Zhu et al., 2003) et le classifieur du plus proche voisin (1-PPV) en fonction du nombre de données étiquetées dans l’ensemble de données considéré. Bousquet O., Chapelle O., Hein M., « Measure Based Regularization », in S. Thrun, L. Saul, B. Schölkopf (eds), Advances in Neural Information Processing Systems 16, MIT Press, Cambridge, MA, 2004. Un graphe génératif pour la classification 21 Carreira-Perpiñán M., Zemel R., « Proximity Graphs for Clustering and Manifold Learning », in L. Saul, Y. Weiss, L. Bottou (eds), Advances in Neural Information Processing Systems 17, MIT Press, Cambridge, MA, p. 225-232, 2005. Chapelle O., Schölkopf B., Zien A. (eds), Semi-Supervised Learning, MIT Press, Cambridge, MA, 2006. Chapelle O., Weston J., Scholkopf B., « Cluster Kernels for Semi-Supervised Learning », in S. T. S. Becker, K. Obermayer (eds), Advances in Neural Information Processing Systems 15, MIT Press, Cambridge, MA, p. 585-592, 2003. Chung-Graham F., Spectral Graph Theory, AMS, 1997. Dempster A., Laird N., Rubin D., « Maximum likelihood from incomplete data via the EM algorithm », Journal of the Royal Statistical Society, Series B, vol. 39, n˚ 1, p. 1-38, 1977. Ghahramani Z., Jordan M., « Supervised learning from incomplete data via an EM approach », Advances in Neural Information Processing Systems 6, Morgan Kaufmann, p. 120-127, 1994. Grinstead C., Snell J. (eds), Introduction to probability (Chapter 11), AMS, 1997. Landgrebe D., Shahshahani B., « The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon », The Annals of Statistics, 1978. Martinetz T., Schulten K., « Topology Representing Networks », Neural Networks, Elsevier London, vol. 7, p. 507-522, 1994. Miller D., Uyar S., « A generalized Gaussian mixture classifier with learning based on both labelled and unlabelled data », Proceedings of the 1996 Conference on Information Science and Systems, 1996. Newman D., Hettich S., Blake C., Merz C., « UCI Repository of machine learning databases », 1998. Nigam K., McCallum A., Thrun S., Mitchell T., « Text classification from labeled and unlabeled documents using EM », Machine Learning, vol. 39, n˚ 2, p. 103-134, 2000. Rubinstein Y. D., Hastie T., « Discriminative vs Informative Learning », in H. M. D. Heckerman, D. Pregibon (eds), Proceedings of the Third International Conference on Knowledge Discovery and Data Mining, AAAI Press, p. 49-53, 1997. Schwartz G., « Estimating the dimension of a model », The Annals of Statistics, vol. 6, p. 461464, 1978. Seeger M., Learning with labeled and unlabeled data, Technical report, University of Edinburgh, 2001. Szummer M., Jaakkola T., « Partially labeled classification with markov random walks », in Z. G. T. Dietterich, S. Becker (ed.), Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, MA, p. 945-952, 2002. Zhou D., Bousquet O., Lal T., Weston J., Schölkopf B., « Learning with Local and Global Consistency », in S. Thrun, L. Saul, B. Schölkopf (eds), Advances in Neural Information Processing Systems 16, MIT Press, Cambridge, MA, 2004. Zhu X., Ghahramani Z., Lafferty J., « Semi-supervised learning using Gaussian fields and harmonic functions », Proceedings of the 20nd International Conference on Machine Learning, p. 912-919, 2003. 22 ISI Zhu X., Lafferty J., « Harmonic mixtures : combining mixture models and graph-based methods for inductive and scalable semi-supervised learning », Proceedings of the 22nd International Conference on Machine Learning, ACM, New York, USA, p. 1052-1059, 2005. Annexe Dans cette section, nous fournissons la preuve de la convergence de l’algorithme de propagation. Lemme 1 S’il existe un composant par composante connexe du graphe ayant un potentiel différent de 0, alors les valeurs propres de la matrice P sont dans ] − 1, 1[. Preuve 1 (Preuve du lemme 1) Supposons qu’il existe une seule composante dans le graphe et un seul composant du modèle de mélange gaussien tel que Vn > 0. Sans perte de généralité on peut supposer qu’il s’agit du N e . Alors toutes les lignes de la matrice P ont une somme égale à 1 sauf la dernière qui vaut VN . Considérons la matrice Q de taille (N + 1) × (N + 1) : P A Q= [23] 0 1 où A = (0, ..., 0, 1 − VN )T et où 0 = (0...0). La matrice Q étant par construction stochastique, le module de ses valeurs propres est inférieur ou égal à 1. Si l’on développe det(Q − λI) en utilisant la dernière colonne, on obtient que le polynôme caractéristique CQ de la matrice Q s’exprime en fonction du polynôme caractéristique CP de la matrice P : CQ (λ) = (1 − λ)CP (λ) − (1 − VN )det(B), où B est la matrice carrée dont les n − 1 premières lignes sont les n − 1 premières lignes de P et dont la dernière ligne n’est formée que de 0. Ainsi, det(B) = 0 et CQ (λ) = (1 − λ)CP , de telle sorte que les valeurs propres de la matrice Q soient 1 plus celles de la matrice P. Puisque le graphe est connexe alors la matrice Q est irréductible et l’état N + 1 est le seul état absorbant de la chaîne de Markov associée à la matrice Q. Ainsi, pour N +1 X tout état initial v = [v1 , ..., vN +1 ] tel que vi ≥ 0 ∀i ∈ {1, ..., N + 1} et vi = 1, i=1 on a lim vQt = [0, ..., 1]. Ceci implique que la valeur propre 1 de la matrice Q a t→∞ une multiplicité égale à 1 (Grinstead et al., 1997) et donc toutes les autres (celles de P) ont un module inférieur à 1. Si le graphe n’est pas connexe, la matrice P peut être transformée en matrice bloc, chaque bloc correspondant alors à une composante connexe. Le raisonnement est alors identique sur chaque sous-matrice. De manière similaire, on montre le même résultat lorsqu’il existe plusieurs composants ayant un potentiel Vn > 0. Un graphe génératif pour la classification 23 Preuve 2 (Preuve de la convergence) D’après le schéma itératif, on a : Y (t+1) = [(1 − W) ⊗ P]t Y (0) + Pt q=1 ((1 − W) ⊗ P)q (V ⊗ Y (0) ) [24] D’après le lemme 1, les valeurs propres de ((1 − W) ⊗ P) sont dans ] − 1, 1[. Ainsi, lim [(1 − W) ⊗ P]t = 0 et : t→∞ lim t→∞ t X [(1 − W) ⊗ P]q = [I − (1 − W) ⊗ P]−1 [25] q=1 L’algorithme converge donc vers : β∗ = lim Y (t) t→∞ = [I − (1 − W) ⊗ P]−1 (V ⊗ Y (0) ) [26] S ERVICE ÉDITORIAL – H ERMES -L AVOISIER 14 rue de Provigny, F-94236 Cachan cedex Tél. : 01-47-40-67-67 E-mail : [email protected] Serveur web : http://www.revuesonline.com ANNEXE POUR LE SERVICE FABRICATION A FOURNIR PAR LES AUTEURS AVEC UN EXEMPLAIRE PAPIER DE LEUR ARTICLE ET LE COPYRIGHT SIGNE PAR COURRIER LE FICHIER PDF CORRESPONDANT SERA ENVOYE PAR E-MAIL 1. A RTICLE POUR LA REVUE : ISI 2. AUTEURS : Pierre Gaillard * — Michaël Aupetit ** — Gérard Govaert *** 3. T ITRE DE L’ ARTICLE : Un graphe génératif pour la classification semi-supervisée 4. T ITRE ABRÉGÉ POUR LE HAUT DE PAGE MOINS DE 40 SIGNES : Un graphe génératif pour la classification 5. DATE DE CETTE VERSION : 3 février 2010 6. C OORDONNÉES DES AUTEURS : – adresse postale : * CEA, DAM, DIF, F-91297 Arpajon, France [email protected] ** CEA, LIST, F-91191 Gif-sur-Yvette, France. [email protected] ** UTC, U.M.R. C.N.R.S. 6599 Heudiasyc, 60205 Compiègne Cedex, France [email protected] – téléphone : 00 00 00 00 00 – télécopie : 00 00 00 00 00 – e-mail : publisher 7. L OGICIEL UTILISÉ POUR LA PRÉPARATION DE CET ARTICLE : LATEX, avec le fichier de style article-hermes.cls, version 1.23 du 17/11/2005. 8. F ORMULAIRE DE COPYRIGHT : Retourner le formulaire de copyright signé par les auteurs, téléchargé sur : http://www.revuesonline.com S ERVICE ÉDITORIAL – H ERMES -L AVOISIER 14 rue de Provigny, F-94236 Cachan cedex Tél. : 01-47-40-67-67 E-mail : [email protected] Serveur web : http://www.revuesonline.com