Chapitre 7 Méthodes de groupage Solutions

publicité
D ÉPARTEMENT DE G ÉNIE LOGICIEL ET DES TI
LOG770 - S YST ÈMES INTELLIGENTS
É T É 2011
Chapitre 7
Méthodes de groupage
Solutions
1. Le modèle de mélange de densité sert à caractériser les distributions (classes) d’exemples
qui sont composées de plus d’un sous-groupe. Par exemple, si l’on trace la distribution des
attributs taille et poids de 100 personnes choisies aléatoirement dans la population, on pourra
observer au moins deux sous-groupes distincts représentant les hommes et les femmes. La
distribution des exemples dans ces sous-groupe est peut-être normale, mais la distribution de
tous les exemples ne l’est pas (on a deux bosses (modes) et non une seule). Si on suppose une
distribution normale pour l’échantillon contenant tous les exemples, on aura une mauvaise
estimation de cette distribution. La figure suivante illustre un tel cas :
2. Le groupage est un problème d’apprentissage non-supervisé (on ne possède que les entrées
des exemples d’entraı̂nement, pas la sortie) dont l’objectif est découvrir des groupes d’exemples
similaires survenant naturellement dans les données. Une application classique du groupage
est la segmentation de clients, où une compagnie sépare ses clients en groupes d’individus
ayant un profile et des habitudes d’achat similaires. La compagnie peut ensuite développer
des stratégies de vente et de publicité ciblant chacun de ces groupes, de manière à maximiser les profits et minimiser les coûts. Dans cette application, les entrées sont les profiles des
clients (ex : âge, sexe, lieu de résidence, etc.) et leurs habitudes d’achat (ex : produits achetés
dans le passé), et les sorties sont les classes trouvées et les clients composant ces classes.
1
Dans certains algorithmes de groupage, il faut également fournir en entrée le nombre k de
classes recherchées.
3. La quantification vectorielle est une technique d’encodage où l’on cherche à trouver une
correspondance (mapping) entre les valeurs d’un espace de grande taille et celles d’un espace
réduit, préservant le mieux possible l’objet encodé. Par exemple, on peut vouloir encoder une
image dont chaque pixel fait 24 bits (16 millions de couleurs) en une nouvelle image ayant
8 bits par pixels. Le but est évidemment de réduire la taille de l’image.
Si on exprime la quantification vectorielle comme le problème de trouver la correspondance
entre les valeurs initiales à un ensemble de k nouvelles valeurs, de manière à minimiser la
différence entre les valeurs initiales et leurs correspondances, une solution à ce problème
s’obtient avec l’algorithme de groupage des k-moyennes.
4. L’algorithme des k-moyennes commence par générer k centroı̈des, et répète ensuite les deux
étapes suivantes jusqu’à convergence :
(a) Assigner chaque exemple xt au centroı̈de le plus près ;
(b) Mettre à jour chaque centroı̈de en calculant la moyenne des exemples lui étant assignés.
En sortie, l’algorithme retourne les k centroı̈de obtenus et, implicitement, l’assignation des
exemples à ces centroı̈des.
5. Non, l’algorithme des k-moyennes n’offre pas cette garantie. De manière générale, la solution obtenue varie selon les centroı̈des initiaux choisis.
6. Dans l’algorithme des k-médianes, on impose aux centroı̈des d’être à la position d’un des
exemples d’entraı̂nement. Ainsi, le centroı̈de d’un ensemble d’exemples correspond à l’exemple
le plus central de cet ensemble. De manière générale, l’algorithme des k-médianes est moins
sensible aux données aberrantes (outliers) qui peuvent affecter grandement la position des
centroı̈des dans l’algorithme des k-moyennes.
7. Vrai. Puisque cette méthode minimise la distance des exemples à leur centroı̈de, on aura
tendance à trouver des groupes de forme sphérique. Donc, si les groupes recherchés ont une
forme allongée ou courbée, l’algorithme des k-moyenne peut ne pas les trouver.
8. La différence principale entre l’algorithme des k-moyennes et l’algorithme EM pour le groupage est que ce dernier est probabiliste. Au lieu de retourner les centroı̈des des groupes
trouvés, l’algorithme EM retourne les paramètres des groupes (ex : moyennes et matrices de
covariance des groupes, dans le cas d’un mélange de gaussiennes) qui maximisent la vraisemblance des exemples observés. Ainsi, cet algorithme permet de connaı̂tre la probabilité
d’un exemple d’appartenir à chacun des groupes.
Un autre avantage de l’algorithme EM sur l’algorithme des k-moyennes et qu’on peut définir
n’importe quel modèle pour les groupes recherchés. Cela permet de trouver des groupes
ayant d’autres formes qu’une sphère. Par exemple, dans le cas d’un mélange de gaussiennes,
les groupes obtenus ont la forme d’ellipses orientées :
2
9. L’algorithme agglomératif par lien-simple (lien-unique) est une approche itérative de groupe,
où on commence avec N groupes contenant chacun un des exemples d’entraı̂nement, et on
fusionne à chaque itération les deux groupes Gi , Gj dont la distance entre les exemples les
plus rapprochés de chaque groupe est la plus petite :
dist(Gi , Gj ) =
min
xs ∈Gi , xt ∈Gj
dist(xs , xt ).
Au lieu de retourner un ensemble de groupes, comme l’algorithme des k-moyennes et l’algorithme EM, cette méthode retourne un dendrogramme, une structure en forme d’arbre
montrant les fusions faites à chaque itération. La figure suivante montre un exemple de dendrogramme :
10. Nécessité de fournir le nombre de groupes :
• k-moyennes : Oui ;
• Mélange de gaussiennes (EM) : Oui ;
• Groupage agglomératif : Non. Cette méthode retourne un dendrogramme qui montre les
fusions allant de N groupes à un seul groupe. On peut donc choisir le groupage pour
n’importe quel k.
3
Téléchargement