Chapitre 7 Méthodes de groupage Solutions

Téléchargement

D´

EPARTEMENT DE G ´

ENIE LOGICIEL ET DES TI

LOG770 - SYST `

EMES INTELLIGENTS

ET´

E2011

Chapitre 7

M´

ethodes de groupage

Solutions

1. Le mod`

ele de m´

elange de densit´

e sert `

a caract´

eriser les distributions (classes) d’exemples

qui sont compos´

ees de plus d’un sous-groupe. Par exemple, si l’on trace la distribution des

attributs taille et poids de 100 personnes choisies al´

eatoirement dans la population, on pourra

observer au moins deux sous-groupes distincts repr´

esentant les hommes et les femmes. La

distribution des exemples dans ces sous-groupe est peut-ˆ

etre normale, mais la distribution de

tous les exemples ne l’est pas (on a deux bosses (modes) et non une seule). Si on suppose une

distribution normale pour l’´

echantillon contenant tous les exemples, on aura une mauvaise

estimation de cette distribution. La ﬁgure suivante illustre un tel cas :

2. Le groupage est un probl`

eme d’apprentissage non-supervis´

e (on ne poss`

ede que les entr´

ees

des exemples d’entraˆ

ınement, pas la sortie) dont l’objectif est d´

ecouvrir des groupes d’exemples

similaires survenant naturellement dans les donn´

ees. Une application classique du groupage

est la segmentation de clients, o`

u une compagnie s´

epare ses clients en groupes d’individus

ayant un proﬁle et des habitudes d’achat similaires. La compagnie peut ensuite d´

evelopper

des strat´

egies de vente et de publicit´

e ciblant chacun de ces groupes, de mani`

ere `

a maximi-

ser les proﬁts et minimiser les coˆ

uts. Dans cette application, les entr´

ees sont les proﬁles des

clients (ex : ˆ

age, sexe, lieu de r´

esidence, etc.) et leurs habitudes d’achat (ex : produits achet´

dans le pass´

e), et les sorties sont les classes trouv´

ees et les clients composant ces classes.

Dans certains algorithmes de groupage, il faut ´

egalement fournir en entr´

ee le nombre kde

classes recherch´

ees.

3. La quantiﬁcation vectorielle est une technique d’encodage o`

u l’on cherche `

a trouver une

correspondance (mapping) entre les valeurs d’un espace de grande taille et celles d’un espace

r´

eduit, pr´

eservant le mieux possible l’objet encod´

e. Par exemple, on peut vouloir encoder une

image dont chaque pixel fait 24 bits (16 millions de couleurs) en une nouvelle image ayant

8 bits par pixels. Le but est ´

evidemment de r´

eduire la taille de l’image.

Si on exprime la quantiﬁcation vectorielle comme le probl`

eme de trouver la correspondance

entre les valeurs initiales `

a un ensemble de knouvelles valeurs, de mani`

ere `

a minimiser la

diff´

erence entre les valeurs initiales et leurs correspondances, une solution `

a ce probl`

eme

s’obtient avec l’algorithme de groupage des k-moyennes.

4. L’algorithme des k-moyennes commence par g´

en´

erer kcentro¨

ıdes, et r´

ep`

ete ensuite les deux

etapes suivantes jusqu’`

a convergence :

(a) Assigner chaque exemple xtau centro¨

ıde le plus pr`

es ;

(b) Mettre `

a jour chaque centro¨

ıde en calculant la moyenne des exemples lui ´

etant assign´

es.

En sortie, l’algorithme retourne les kcentro¨

ıde obtenus et, implicitement, l’assignation des

exemples `

a ces centro¨

ıdes.

5. Non, l’algorithme des k-moyennes n’offre pas cette garantie. De mani`

ere g´

en´

erale, la solu-

tion obtenue varie selon les centro¨

ıdes initiaux choisis.

6. Dans l’algorithme des k-m´

edianes, on impose aux centro¨

ıdes d’ˆ

etre `

a la position d’un des

exemples d’entraˆ

ınement. Ainsi, le centro¨

ıde d’un ensemble d’exemples correspond `

a l’exemple

le plus central de cet ensemble. De mani`

ere g´

en´

erale, l’algorithme des k-m´

edianes est moins

sensible aux donn´

ees aberrantes (outliers) qui peuvent affecter grandement la position des

centro¨

ıdes dans l’algorithme des k-moyennes.

7. Vrai. Puisque cette m´

ethode minimise la distance des exemples `

a leur centro¨

ıde, on aura

tendance `

a trouver des groupes de forme sph´

erique. Donc, si les groupes recherch´

es ont une

forme allong´

ee ou courb´

ee, l’algorithme des k-moyenne peut ne pas les trouver.

8. La diff´

erence principale entre l’algorithme des k-moyennes et l’algorithme EM pour le grou-

page est que ce dernier est probabiliste. Au lieu de retourner les centro¨

ıdes des groupes

trouv´

es, l’algorithme EM retourne les param`

etres des groupes (ex : moyennes et matrices de

covariance des groupes, dans le cas d’un m´

elange de gaussiennes) qui maximisent la vrai-

semblance des exemples observ´

es. Ainsi, cet algorithme permet de connaˆ

ıtre la probabilit´

d’un exemple d’appartenir `

a chacun des groupes.

Un autre avantage de l’algorithme EM sur l’algorithme des k-moyennes et qu’on peut d´

eﬁnir

n’importe quel mod`

ele pour les groupes recherch´

es. Cela permet de trouver des groupes

ayant d’autres formes qu’une sph`

ere. Par exemple, dans le cas d’un m´

elange de gaussiennes,

les groupes obtenus ont la forme d’ellipses orient´

ees :

9. L’algorithme agglom´

eratif par lien-simple (lien-unique) est une approche it´

erative de groupe,

u on commence avec Ngroupes contenant chacun un des exemples d’entraˆ

ınement, et on

fusionne `

a chaque it´

eration les deux groupes Gi, Gjdont la distance entre les exemples les

plus rapproch´

es de chaque groupe est la plus petite :

dist(Gi, Gj) = min

xs∈Gi, xt∈Gj

dist(xs, xt).

Au lieu de retourner un ensemble de groupes, comme l’algorithme des k-moyennes et l’al-

gorithme EM, cette m´

ethode retourne un dendrogramme, une structure en forme d’arbre

montrant les fusions faites `

a chaque it´

eration. La ﬁgure suivante montre un exemple de den-

drogramme :

10. N´

ecessit´

e de fournir le nombre de groupes :

•k-moyennes : Oui ;

•M´

elange de gaussiennes (EM) : Oui ;

•Groupage agglom´

eratif : Non. Cette m´

ethode retourne un dendrogramme qui montre les

fusions allant de Ngroupes `

a un seul groupe. On peut donc choisir le groupage pour

n’importe quel k.

1 / 3 100%

Chapitre 7 Méthodes de groupage Solutions

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Chapitre 7 Méthodes de groupage Solutions

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib