Partitionnement, classication et réduction de dimension Président: Longhai Li (University of Saskatchewan) NAOMI ALTMAN, Penn State University Généralisation de l'ACP à des données non elliptiques L'analyse en composantes principales (ACP) joue un rôle essentiel dans la réduction de dimension des problèmes de grande dimension. Dans cet exposé, je discute du rôle omniprésent de l'ACP et de sa robustesse souvent constatée en présence de nonnormalité des données, qui résulte de son lien avec les meilleures projections L2 de la matrice des données. Par conséquent, une généralisation utile de l'ACP devrait mettre l'accent sur la généralisation des projections L2. Je présente des modèles statistiques pour généraliser l'ACP. TORTORA CRISTINA, University of Guelph Mélange d'analyseurs factoriels hyperboliques généralisés La technique de regroupement à l'aide de modèles la plus utilisée pour les données de grandes dimensions est le mélange du modèle d'analyseurs de facteurs. Cette technique est basée sur un modèle latent de mélange gaussien et cette présentation vise à l'étendre au modèle de mélange d'analyseurs factoriels hyperboliques généralisés (MAFHG). Le mélange d'analyseurs factoriels hyperboliques généralisés est capable de traiter l'asymétrie et les ailes lourdes. Celui-ci correspond aux distributions gaussiennes, t de Student, normalisée inverse gaussienne et variance-gamma comme cas spéciaux. Un algorithme alterné d'espérance conditionnelle de maximisation est utilisé pour l'estimation de paramètres et le critère d'information bayésien est utilisé pour choisir le nombre de facteurs et de composantes. L'ecacité du MAFHG est illustrée à l'aide des données réelles, où il se compare favorablement à son analogue gaussien. GEOFFROY MOURET, École Polytechnique de Montréal Algorithme de regroupement sans moyennes L'algorithme des k-moyennes fait partie des méthodes d'apprentissage non-supervisé les plus utilisées. Les raisons de ce succès sont principalement sa simplicité, son ecacité computationnelle et son large champ d'application. Ce projet propose une approche bayésienne plus appronfondie de l'apprentissage non-supervisé et présente une variante de l'algorithme des kmoyennes basée sur cette approche. Ce nouvel algorithme met en place une version des k-moyennes qui s'aranchit du calcul de la moyenne des grappes. YANG TANG, University of Guelph Mélange de modèles de traits latents pour données catégoriques de grandes dimensions Nous présentons un mélange de modèles de traits latents avec des paramètres de pente communs pour des données catégoriques de grandes dimensions, type de données pour lequel il existe peu de méthodes établies. Les travaux récents sur le regroupement des données binaires, fondés sur une variable latente gaussienne de d dimensions, sont généralisés par l'emploi de fonction de réponse logistique multinomiales. L'utilisation d'une fonction de réponse logistique nous permet de dériver un algorithme EM variationnel qui nous donne un algorithme EM soluble d'un modèle de densité des variables latentes. Quatorze structures de covariance sont employées pour minimiser le nombre de paramètres. De plus, cette approche permet une représentation visuelle de faible dimension des grappes. Nous illustrons notre approche par des données réelles et simulées. YUHONG WEI, University of Guelph Moyenne de modèles de mélange pour le groupage et la classication 1 Dans le groupage par modèle, il est fréquent d'ajuster une famille de modèles puis de n'enregistrer que les résultats de groupage du meilleur modèle. Plutôt que de nous débarrasser de tous les modèles sauf le meilleur, nous mettons au point des approches permettant de faire la moyenne de plusieurs modèles qui sont proches du meilleur, produisant ainsi une moyenne pondérée des résultats du groupage. Nous étudions deux approches pour calculer cette moyenne : moyenne des probabilités des éléments membres et moyenne des modèles. Dans les deux cas, nous utilisons la fenêtre d'Occam pour déterminer la proximité au meilleur modèle et nous calculons la pondération dans un paradigme de moyenne de modèle bayésien. Dans certains cas, nous devons fusionner les éléments avant de calculer la moyenne : nous proposons une méthode pour ce faire fondée sur l'indice de Rand ajusté. LU XIN, University of Waterloo Modèles stochastiques par blocs en temps continu pour les réseaux transactionnels Les données de réseaux transactionnels décrivent les communications entre les acteurs d'un réseau social. Plusieurs chercheurs ont utilisé des modèles stochastiques par blocs pour détecter les communautés de ces réseaux. Par contre, soit ils ne tiennent pas compte du temps, soit ils le traitent de façon discrète (avec une chaîne de Markov en temps discret). Nous proposons un modèle stochastique par blocs en temps continu. En exploitant des idées puisées dans la modélisation par mélanges et l'analyse d'événements récurrentiels, notre modèle est non seulement capable de détecter des communautés, mais il permet aussi de décrire l'évolution des schémas de communications au sein de ces communautés. Nous illustrons les avantages de notre modèle à partir de données réelles sur le basketball de la ligue NBA. 2