1
Notes du cours RFIDEC (5)
Jean-Yves Jaffray
20 janvier 2006
1 Classification non-param´etrique : la m´ethode des
kplus proches voisins
1.1 Introduction
Lorsque nous avons fait des hypoth`eses probabilistes (statistique inf´erentielle)
nous avons toujours suppos´e que la famille des lois dont sont susceptibles
d’ˆetre tir´ees les observations pouvait ˆetre ecrite `a l’aide d’un petit nombre
de param`etres ; par exemple, la famille des lois normales `a une dimension a
deux param`etres, (m,σ).On se trouvait alors dans le domaine de la statis-
tique param´etrique.
A contrario, lorsqu’on n’a qu’une id´ee tr`es vague de la loi dont est tir´e
l’´echantillon, on se trouve dans le cadre de la statistique non-param´etrique.
En classification `a Kclasses, il est souvent naturel de supposer que les objets
de deux classes distinctes sont tir´es al´eatoirement selon des lois diff´erentes
et ceux d’une mˆeme classe Ckselon la mˆeme loi, mais que l’on ne sait pas
de quelles lois il s’agit. On se trouve alors en classification non-param´etrique.
1.2 Une approche non-param´etrique
1.2.1 Estimation d’une densit´e de probabilit´e
Soit Xune variable al´eatoire vectorielle `a ddimensions suivant une loi
de densit´e p(x) continue en x; soit Vune boule de centre x; on note p=
P(XV) la probabilit´e que Xappartienne `a V(pd´epend donc de V) et
|V|le volume de V; d’apr`es les propri´et´es de l’int´egrale,
limV0
p
|V|=limV0
P r(XV)
|V|=limV0
RVp(x)dx
RVdx =p(x).
Consid´erons alors un n-´echantillon issu de X; le nombre ˜
kde r´ealisations
qui tombent dans le volume Vest al´eatoire et suit la loi binomiale B(n,p)
(o`u p=P(XV)) :
P(˜
k=k) = (n
k)pk(1 p)(nk),k = 0,···,n
2
On sait que cette loi a pour esp´erance E(˜
k) = np et donc que ˜
k
nest un
estimateur sans biais de p.
Une estimation possible de p(x), d’autant meilleure que le volume de Vsera
plus petit, est donc
p(x) = k
n|V|.
En r´esum´e, la densit´e de probabilit´e estim´ee en xest proportionnelle au
nombre d’observations qui sont dans un voisinage de taille fix´ee de x.
1.2.2 Application `a la classification
Consid´erons le probl`eme de classification `a Kclasses en apprentissage
supervis´e et supposons que l’on ait une base d’exemples contenant nobjets
de chacune des classes.
Si le nouvel objet observ´e, qui est `a classer, appartient `a la classe j(j=
1,···,K), la vraisemblance de x, c-`a-d la densit´e de probabilit´e en x,pj(x),
vaut, approximativement kj
n|V|.
Une r`egle de classement bas´ee sur le principe du maximum de vraisemblance
conduirait donc `a attribuer `a l’objet la classe
j= arg max
jkj
1.3 La m´ethode des kplus proches voisins
Cette m´ethode propose une variante du maximum de vraisemblance en
jouant sur la dimension de la boule V; elle prend Vassez grande pour conte-
nir exactement un nombre fix´e kd’exemples.
Le nouvel objet observ´e xest attribu´e `a la classe qui a le plus de repr´esentants
parmi ces kexemples.
La m´ethode des kplus proches voisins (kPPV) peut ˆetre utilis´ee en
apprentissage supervis´e :
On donne une base d’exemples fixe constitu´ee de nobjets de classes connues :
les prototypes.
Tout nouvel objet `a classer, l’est selon la r`egle des kPPV.
En fait cette r`egle est surtout utilis´ee en apprentissage non-supervis´e :
L’initialisation demande aussi une base d’exemples constitu´ee d’objets de
classes connues, le dictionnaire initial.
Les nouveaux objets, `a classer, le sont successivement selon la r`egle des
kPPV.
La diff´erence est que d`es qu’un objet a ´et´e class´e il est imm´ediatement int´egr´e
au dictionnaire.
3
Algorithme des k-PPV en apprentissage non-supervis´e
Entr´ee :xj, j = 1,···,n +M.
Initialisation Dictionnaire D1={x1,···,xn},m1
Tant que mMep´eter
D´eterminer les kplus proches voisins de xn+mdans Dm;
attribuer `a xn+mla classe majoritaire
mm+ 1
Sortie : classification des xj, j =n+ 1,···,n +M
Critique de la m´ethode des kPPV :
Il y a beaucoup d’arbitraire ; en particulier les classements d´ependent de
l’ordre dans lequel les nouveaux objets arrivent.
La valeur de kne peut pas ˆetre prise tr`es grande, sinon la ethode ne
s’appliquerait qu’aux tr`es grandes bases d’objets ; or, si kest petit, la classi-
fication est tr`es sensible au bruit (c-`a-d qu’une faible modification des objets
pourrait modifier profond´ement les classements).
2 La quantification vectorielle
2.1 Introduction
La quantification vectorielle, en abr´eg´e VQ (Vector Quantization, en
anglais), op`ere sur des objets pouvant prendre des valeurs tr`es diverses, par
exemple des vecteurs quelconques de Rd
+, et ram`ene chacun d’eux `a celui
des objets d’une liste restreinte (les prototypes) qui en est le plus proche.
Dans un magasin de chaussures, on ne prend pas en compte la longueur
exacte de votre pied, mais seulement votre pointure, qui en donne une id´ee
approximative, chaque pointure correspondant id´ealement `a une longueur
du pied pr´ecise. Cette simplification des donn´ees est fondamentale dans plu-
sieurs domaines, dont la compression d’images.
La VQ est donc `a la base une technique de regroupement mais peut aussi
ˆetre consid´er´ee comme une ethode de classification, assimiler un objet `a
un prototype donn´e revenant `a le ranger dans une classe donn´ee (associ´ee `a
ce prototype).
L’utilisation la plus ineressante de la VQ est en apprentissage non-
supervis´e et avec des prototypes qui ne sont pas fixes et vont ´evoluer au
cours de l’algorithme.
Une phase d’initialisation est cependant n´ecessaire pour choisir des pro-
totypes initiaux. Une possibilit´e est d’utiliser un algorithme`a seuil.
4
2.2 Algorithme `a seuil
Le nombre Kde classes n’est pas impos´e a priori et est lui-mˆeme une
sortie de l’algorithme. On choisit une distance d(x,y) ; ce sera en en´eral la
distance euclidienne si l’on est dans Rd. On choisit ensuite un seuil,θ, c-`a-d
une distance minimale devant s´eparer tout couple de prototypes.
La s´election d’un dictionnaire de prototypes initiaux est alors op´er´ee par
l’algorithme :
Algorithme `a seuil
Entr´ee :X={xj, j = 1,···,n}. Seuil θ > 0
Initialisation Dictionnaire D1={x1},j2
Tant que jnep´eter
Si yDj1, d(xj,y)θ
Alors DjDj1
Sinon DjDj1∪ {xj}
Sortie : un dictionnaire de prototypes D=Dnde taille K=|D|
2.3 Algorithmes de K-moyenne
Nous allons donner deux algorithmes, variantes l’un de l’autre, qui, par-
tant de Kprototypes initiaux, vont classer les une apr`es les autres les objets
de la base (r`egle de s´election) mais vont aussi modifier au passage les proto-
types (r`egle d’adaptation); l’id´ee est que le prototype d’une classe doit ˆetre
un objet bien repr´esentatif de cette classe, un objet “moyen” en quelque
sorte, qu’on appelle un centro¨ıde ; un centro¨ıde particulier souvent utilis´e
lorsque l’on a affaire `a des objets de Rdest leur centre de gravit´e.
2.3.1 Algorithme de K-moyenne de type CL
Dans l’algorithme CL (initiales de Competitive Learning en anglais),
seul compte pour le classement le crit`ere de proximit´e du prototype.
Cet algorithme est aussi connu sous d’autres noms, dont algorithme d’agr´egation
autour de centres mobiles.
Algorithme de K-moyenne de type CL
Entr´ee :Kprototypes D={y1,···,yK};X={xj, j = 1,···,n}.
Initialisation j1 , nk=1 (1kK)
Tant que jnep´eter
karg min1lKd(xj,yl)
Affecter xj`a la classe Ck(r`egle de s´election)
ykyk+α(xjyk) (r`egle d’adaptation)
nknk+ 1
Sortie : un regroupement en Kclasses et les prototypes de chaque classe
(des centro¨ıdes), D.
Dans la r`egle d’adaptation, α > 0 est une constante qui g`ere l’intensit´e du
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !