Examen Master 2 Extraction de connaissances Documents autorisés 1h30 2005/2006 1. Comparer les méthodes Apriori et FP-tree pour le calcul des ensembles fréquents. 2. Lors de la construction des arbres de décision, une méthode permettant d’éviter l’overfitting consiste à simplifier l’arbre obtenu lors d’une première étape. a. Expliquer la notion d’overfitting b. Expliquer le principe de simplification des arbres a posteriori 3. Considérons la méthode de regroupement basée sur la densité vue en cours. Cette méthode considère qu’un cluster est un groupe d’objets qui doit être dense. La notion de densité est exprimée en utilisant le concept d’accessibilité, i.e la distance maximale séparant deux objets voisins ainsi que le nombre minimum de voisins d’un objet. Ceci permet de définir ce que sont deux objets accessibles. La méthode consiste donc à faire de sorte que deux objets accessibles soient forcément dans le même cluster. Le problème de cette méthode réside dans le fait qu’il faille fixer les paramètres Minpts et Eps (voir notes de cours). Ainsi, généralement, on procède par tâtonnement en essayant plusieurs valeurs de ces paramètres jusqu’à obtenir un regroupement « satisfaisant ». On voit donc, qu’on est en présence d’un processus interactif (ce qui est d’ailleurs généralement le cas avec les techniques de datamining ). On vous propose la méthode itérative suivante : o On compte au départ le nombre d’objets on trouve qu’il y en a n. On calcule la distance maximale séparant deux objets et on trouve que c’est D. On fixe la valeur de Eps à d (d > 0) et MinPts à m avec m qui est bien sûr inférieur à n. o On lance une première fois l’algorithme pour calculer les clusters avec comme paramètres d et m o Ensuite, on répète le processus suivant : i. Remplacer la valeur de Eps par 2*Eps ii. Relancer le calcul des clusters avec les paramètres MinPts (MinPts inchangé) et Eps Jusqu’à ce que le regroupement obtenu soit égal au regroupement de l’itération précédente. 3.1 Montrer qu’à chaque itération, les groupes qu’on obtient sont en fait une fusion de groupes obtenus lors de l’itération précédente. 3.2 Montrer que l’algorithme converge. 3.3 Donner une estimation du nombre maximum d’itérations qu’il faut pour que l’algorithme s’arrête. Quel est le nombre minimum d’itérations ? NB : Vous pouvez supposer que la première question est démontrée et utiliser ce résultat pour montrer la deuxième et la troisième.