D´
EPARTEMENT DE G ´
ENIE LOGICIEL ET DES TI
LOG770 - SYST `
EMES INTELLIGENTS
´
ET´
E2011
Chapitre 7
M´
ethodes de groupage
Solutions
1. Le mod`
ele de m´
elange de densit´
e sert `
a caract´
eriser les distributions (classes) d’exemples
qui sont compos´
ees de plus d’un sous-groupe. Par exemple, si l’on trace la distribution des
attributs taille et poids de 100 personnes choisies al´
eatoirement dans la population, on pourra
observer au moins deux sous-groupes distincts repr´
esentant les hommes et les femmes. La
distribution des exemples dans ces sous-groupe est peut-ˆ
etre normale, mais la distribution de
tous les exemples ne l’est pas (on a deux bosses (modes) et non une seule). Si on suppose une
distribution normale pour l’´
echantillon contenant tous les exemples, on aura une mauvaise
estimation de cette distribution. La figure suivante illustre un tel cas :
2. Le groupage est un probl`
eme d’apprentissage non-supervis´
e (on ne poss`
ede que les entr´
ees
des exemples d’entraˆ
ınement, pas la sortie) dont l’objectif est d´
ecouvrir des groupes d’exemples
similaires survenant naturellement dans les donn´
ees. Une application classique du groupage
est la segmentation de clients, o`
u une compagnie s´
epare ses clients en groupes d’individus
ayant un profile et des habitudes d’achat similaires. La compagnie peut ensuite d´
evelopper
des strat´
egies de vente et de publicit´
e ciblant chacun de ces groupes, de mani`
ere `
a maximi-
ser les profits et minimiser les coˆ
uts. Dans cette application, les entr´
ees sont les profiles des
clients (ex : ˆ
age, sexe, lieu de r´
esidence, etc.) et leurs habitudes d’achat (ex : produits achet´
es
dans le pass´
e), et les sorties sont les classes trouv´
ees et les clients composant ces classes.
1
Dans certains algorithmes de groupage, il faut ´
egalement fournir en entr´
ee le nombre kde
classes recherch´
ees.
3. La quantification vectorielle est une technique d’encodage o`
u l’on cherche `
a trouver une
correspondance (mapping) entre les valeurs d’un espace de grande taille et celles d’un espace
r´
eduit, pr´
eservant le mieux possible l’objet encod´
e. Par exemple, on peut vouloir encoder une
image dont chaque pixel fait 24 bits (16 millions de couleurs) en une nouvelle image ayant
8 bits par pixels. Le but est ´
evidemment de r´
eduire la taille de l’image.
Si on exprime la quantification vectorielle comme le probl`
eme de trouver la correspondance
entre les valeurs initiales `
a un ensemble de knouvelles valeurs, de mani`
ere `
a minimiser la
diff´
erence entre les valeurs initiales et leurs correspondances, une solution `
a ce probl`
eme
s’obtient avec l’algorithme de groupage des k-moyennes.
4. L’algorithme des k-moyennes commence par g´
en´
erer kcentro¨
ıdes, et r´
ep`
ete ensuite les deux
´
etapes suivantes jusqu’`
a convergence :
(a) Assigner chaque exemple xtau centro¨
ıde le plus pr`
es ;
(b) Mettre `
a jour chaque centro¨
ıde en calculant la moyenne des exemples lui ´
etant assign´
es.
En sortie, l’algorithme retourne les kcentro¨
ıde obtenus et, implicitement, l’assignation des
exemples `
a ces centro¨
ıdes.
5. Non, l’algorithme des k-moyennes n’offre pas cette garantie. De mani`
ere g´
en´
erale, la solu-
tion obtenue varie selon les centro¨
ıdes initiaux choisis.
6. Dans l’algorithme des k-m´
edianes, on impose aux centro¨
ıdes d’ˆ
etre `
a la position d’un des
exemples d’entraˆ
ınement. Ainsi, le centro¨
ıde d’un ensemble d’exemples correspond `
a l’exemple
le plus central de cet ensemble. De mani`
ere g´
en´
erale, l’algorithme des k-m´
edianes est moins
sensible aux donn´
ees aberrantes (outliers) qui peuvent affecter grandement la position des
centro¨
ıdes dans l’algorithme des k-moyennes.
7. Vrai. Puisque cette m´
ethode minimise la distance des exemples `
a leur centro¨
ıde, on aura
tendance `
a trouver des groupes de forme sph´
erique. Donc, si les groupes recherch´
es ont une
forme allong´
ee ou courb´
ee, l’algorithme des k-moyenne peut ne pas les trouver.
8. La diff´
erence principale entre l’algorithme des k-moyennes et l’algorithme EM pour le grou-
page est que ce dernier est probabiliste. Au lieu de retourner les centro¨
ıdes des groupes
trouv´
es, l’algorithme EM retourne les param`
etres des groupes (ex : moyennes et matrices de
covariance des groupes, dans le cas d’un m´
elange de gaussiennes) qui maximisent la vrai-
semblance des exemples observ´
es. Ainsi, cet algorithme permet de connaˆ
ıtre la probabilit´
e
d’un exemple d’appartenir `
a chacun des groupes.
Un autre avantage de l’algorithme EM sur l’algorithme des k-moyennes et qu’on peut d´
efinir
n’importe quel mod`
ele pour les groupes recherch´
es. Cela permet de trouver des groupes
ayant d’autres formes qu’une sph`
ere. Par exemple, dans le cas d’un m´
elange de gaussiennes,
les groupes obtenus ont la forme d’ellipses orient´
ees :
2
9. L’algorithme agglom´
eratif par lien-simple (lien-unique) est une approche it´
erative de groupe,
o`
u on commence avec Ngroupes contenant chacun un des exemples d’entraˆ
ınement, et on
fusionne `
a chaque it´
eration les deux groupes Gi, Gjdont la distance entre les exemples les
plus rapproch´
es de chaque groupe est la plus petite :
dist(Gi, Gj) = min
xsGi, xtGj
dist(xs, xt).
Au lieu de retourner un ensemble de groupes, comme l’algorithme des k-moyennes et l’al-
gorithme EM, cette m´
ethode retourne un dendrogramme, une structure en forme d’arbre
montrant les fusions faites `
a chaque it´
eration. La figure suivante montre un exemple de den-
drogramme :
10. N´
ecessit´
e de fournir le nombre de groupes :
k-moyennes : Oui ;
M´
elange de gaussiennes (EM) : Oui ;
Groupage agglom´
eratif : Non. Cette m´
ethode retourne un dendrogramme qui montre les
fusions allant de Ngroupes `
a un seul groupe. On peut donc choisir le groupage pour
n’importe quel k.
3
1 / 3 100%