Dans certains algorithmes de groupage, il faut ´
egalement fournir en entr´
ee le nombre kde
classes recherch´
ees.
3. La quantification vectorielle est une technique d’encodage o`
u l’on cherche `
a trouver une
correspondance (mapping) entre les valeurs d’un espace de grande taille et celles d’un espace
r´
eduit, pr´
eservant le mieux possible l’objet encod´
e. Par exemple, on peut vouloir encoder une
image dont chaque pixel fait 24 bits (16 millions de couleurs) en une nouvelle image ayant
8 bits par pixels. Le but est ´
evidemment de r´
eduire la taille de l’image.
Si on exprime la quantification vectorielle comme le probl`
eme de trouver la correspondance
entre les valeurs initiales `
a un ensemble de knouvelles valeurs, de mani`
ere `
a minimiser la
diff´
erence entre les valeurs initiales et leurs correspondances, une solution `
a ce probl`
eme
s’obtient avec l’algorithme de groupage des k-moyennes.
4. L’algorithme des k-moyennes commence par g´
en´
erer kcentro¨
ıdes, et r´
ep`
ete ensuite les deux
´
etapes suivantes jusqu’`
a convergence :
(a) Assigner chaque exemple xtau centro¨
ıde le plus pr`
es ;
(b) Mettre `
a jour chaque centro¨
ıde en calculant la moyenne des exemples lui ´
etant assign´
es.
En sortie, l’algorithme retourne les kcentro¨
ıde obtenus et, implicitement, l’assignation des
exemples `
a ces centro¨
ıdes.
5. Non, l’algorithme des k-moyennes n’offre pas cette garantie. De mani`
ere g´
en´
erale, la solu-
tion obtenue varie selon les centro¨
ıdes initiaux choisis.
6. Dans l’algorithme des k-m´
edianes, on impose aux centro¨
ıdes d’ˆ
etre `
a la position d’un des
exemples d’entraˆ
ınement. Ainsi, le centro¨
ıde d’un ensemble d’exemples correspond `
a l’exemple
le plus central de cet ensemble. De mani`
ere g´
en´
erale, l’algorithme des k-m´
edianes est moins
sensible aux donn´
ees aberrantes (outliers) qui peuvent affecter grandement la position des
centro¨
ıdes dans l’algorithme des k-moyennes.
7. Vrai. Puisque cette m´
ethode minimise la distance des exemples `
a leur centro¨
ıde, on aura
tendance `
a trouver des groupes de forme sph´
erique. Donc, si les groupes recherch´
es ont une
forme allong´
ee ou courb´
ee, l’algorithme des k-moyenne peut ne pas les trouver.
8. La diff´
erence principale entre l’algorithme des k-moyennes et l’algorithme EM pour le grou-
page est que ce dernier est probabiliste. Au lieu de retourner les centro¨
ıdes des groupes
trouv´
es, l’algorithme EM retourne les param`
etres des groupes (ex : moyennes et matrices de
covariance des groupes, dans le cas d’un m´
elange de gaussiennes) qui maximisent la vrai-
semblance des exemples observ´
es. Ainsi, cet algorithme permet de connaˆ
ıtre la probabilit´
e
d’un exemple d’appartenir `
a chacun des groupes.
Un autre avantage de l’algorithme EM sur l’algorithme des k-moyennes et qu’on peut d´
efinir
n’importe quel mod`
ele pour les groupes recherch´
es. Cela permet de trouver des groupes
ayant d’autres formes qu’une sph`
ere. Par exemple, dans le cas d’un m´
elange de gaussiennes,
les groupes obtenus ont la forme d’ellipses orient´
ees :
2