D ÉPARTEMENT DE G ÉNIE LOGICIEL ET DES TI LOG770 - S YST ÈMES INTELLIGENTS É T É 2011 Chapitre 7 Méthodes de groupage Solutions 1. Le modèle de mélange de densité sert à caractériser les distributions (classes) d’exemples qui sont composées de plus d’un sous-groupe. Par exemple, si l’on trace la distribution des attributs taille et poids de 100 personnes choisies aléatoirement dans la population, on pourra observer au moins deux sous-groupes distincts représentant les hommes et les femmes. La distribution des exemples dans ces sous-groupe est peut-être normale, mais la distribution de tous les exemples ne l’est pas (on a deux bosses (modes) et non une seule). Si on suppose une distribution normale pour l’échantillon contenant tous les exemples, on aura une mauvaise estimation de cette distribution. La figure suivante illustre un tel cas : 2. Le groupage est un problème d’apprentissage non-supervisé (on ne possède que les entrées des exemples d’entraı̂nement, pas la sortie) dont l’objectif est découvrir des groupes d’exemples similaires survenant naturellement dans les données. Une application classique du groupage est la segmentation de clients, où une compagnie sépare ses clients en groupes d’individus ayant un profile et des habitudes d’achat similaires. La compagnie peut ensuite développer des stratégies de vente et de publicité ciblant chacun de ces groupes, de manière à maximiser les profits et minimiser les coûts. Dans cette application, les entrées sont les profiles des clients (ex : âge, sexe, lieu de résidence, etc.) et leurs habitudes d’achat (ex : produits achetés dans le passé), et les sorties sont les classes trouvées et les clients composant ces classes. 1 Dans certains algorithmes de groupage, il faut également fournir en entrée le nombre k de classes recherchées. 3. La quantification vectorielle est une technique d’encodage où l’on cherche à trouver une correspondance (mapping) entre les valeurs d’un espace de grande taille et celles d’un espace réduit, préservant le mieux possible l’objet encodé. Par exemple, on peut vouloir encoder une image dont chaque pixel fait 24 bits (16 millions de couleurs) en une nouvelle image ayant 8 bits par pixels. Le but est évidemment de réduire la taille de l’image. Si on exprime la quantification vectorielle comme le problème de trouver la correspondance entre les valeurs initiales à un ensemble de k nouvelles valeurs, de manière à minimiser la différence entre les valeurs initiales et leurs correspondances, une solution à ce problème s’obtient avec l’algorithme de groupage des k-moyennes. 4. L’algorithme des k-moyennes commence par générer k centroı̈des, et répète ensuite les deux étapes suivantes jusqu’à convergence : (a) Assigner chaque exemple xt au centroı̈de le plus près ; (b) Mettre à jour chaque centroı̈de en calculant la moyenne des exemples lui étant assignés. En sortie, l’algorithme retourne les k centroı̈de obtenus et, implicitement, l’assignation des exemples à ces centroı̈des. 5. Non, l’algorithme des k-moyennes n’offre pas cette garantie. De manière générale, la solution obtenue varie selon les centroı̈des initiaux choisis. 6. Dans l’algorithme des k-médianes, on impose aux centroı̈des d’être à la position d’un des exemples d’entraı̂nement. Ainsi, le centroı̈de d’un ensemble d’exemples correspond à l’exemple le plus central de cet ensemble. De manière générale, l’algorithme des k-médianes est moins sensible aux données aberrantes (outliers) qui peuvent affecter grandement la position des centroı̈des dans l’algorithme des k-moyennes. 7. Vrai. Puisque cette méthode minimise la distance des exemples à leur centroı̈de, on aura tendance à trouver des groupes de forme sphérique. Donc, si les groupes recherchés ont une forme allongée ou courbée, l’algorithme des k-moyenne peut ne pas les trouver. 8. La différence principale entre l’algorithme des k-moyennes et l’algorithme EM pour le groupage est que ce dernier est probabiliste. Au lieu de retourner les centroı̈des des groupes trouvés, l’algorithme EM retourne les paramètres des groupes (ex : moyennes et matrices de covariance des groupes, dans le cas d’un mélange de gaussiennes) qui maximisent la vraisemblance des exemples observés. Ainsi, cet algorithme permet de connaı̂tre la probabilité d’un exemple d’appartenir à chacun des groupes. Un autre avantage de l’algorithme EM sur l’algorithme des k-moyennes et qu’on peut définir n’importe quel modèle pour les groupes recherchés. Cela permet de trouver des groupes ayant d’autres formes qu’une sphère. Par exemple, dans le cas d’un mélange de gaussiennes, les groupes obtenus ont la forme d’ellipses orientées : 2 9. L’algorithme agglomératif par lien-simple (lien-unique) est une approche itérative de groupe, où on commence avec N groupes contenant chacun un des exemples d’entraı̂nement, et on fusionne à chaque itération les deux groupes Gi , Gj dont la distance entre les exemples les plus rapprochés de chaque groupe est la plus petite : dist(Gi , Gj ) = min xs ∈Gi , xt ∈Gj dist(xs , xt ). Au lieu de retourner un ensemble de groupes, comme l’algorithme des k-moyennes et l’algorithme EM, cette méthode retourne un dendrogramme, une structure en forme d’arbre montrant les fusions faites à chaque itération. La figure suivante montre un exemple de dendrogramme : 10. Nécessité de fournir le nombre de groupes : • k-moyennes : Oui ; • Mélange de gaussiennes (EM) : Oui ; • Groupage agglomératif : Non. Cette méthode retourne un dendrogramme qui montre les fusions allant de N groupes à un seul groupe. On peut donc choisir le groupage pour n’importe quel k. 3