Partitionnement, classi cation et réduction de dimension

publicité
Partitionnement, classication et réduction de dimension
Président: Longhai Li (University of Saskatchewan)
NAOMI ALTMAN, Penn State University
Généralisation de l'ACP à des données non elliptiques
L'analyse en composantes principales (ACP) joue un rôle essentiel dans la réduction de dimension des problèmes de grande
dimension. Dans cet exposé, je discute du rôle omniprésent de l'ACP et de sa robustesse souvent constatée en présence de nonnormalité des données, qui résulte de son lien avec les meilleures projections L2 de la matrice des données. Par conséquent,
une généralisation utile de l'ACP devrait mettre l'accent sur la généralisation des projections L2. Je présente des modèles
statistiques pour généraliser l'ACP.
TORTORA CRISTINA, University of Guelph
Mélange d'analyseurs factoriels hyperboliques généralisés
La technique de regroupement à l'aide de modèles la plus utilisée pour les données de grandes dimensions est le mélange du
modèle d'analyseurs de facteurs. Cette technique est basée sur un modèle latent de mélange gaussien et cette présentation
vise à l'étendre au modèle de mélange d'analyseurs factoriels hyperboliques généralisés (MAFHG). Le mélange d'analyseurs
factoriels hyperboliques généralisés est capable de traiter l'asymétrie et les ailes lourdes. Celui-ci correspond aux distributions
gaussiennes, t de Student, normalisée inverse gaussienne et variance-gamma comme cas spéciaux. Un algorithme alterné
d'espérance conditionnelle de maximisation est utilisé pour l'estimation de paramètres et le critère d'information bayésien est
utilisé pour choisir le nombre de facteurs et de composantes. L'ecacité du MAFHG est illustrée à l'aide des données réelles,
où il se compare favorablement à son analogue gaussien.
GEOFFROY MOURET, École Polytechnique de Montréal
Algorithme de regroupement sans moyennes
L'algorithme des k-moyennes fait partie des méthodes d'apprentissage non-supervisé les plus utilisées. Les raisons de ce
succès sont principalement sa simplicité, son ecacité computationnelle et son large champ d'application. Ce projet propose
une approche bayésienne plus appronfondie de l'apprentissage non-supervisé et présente une variante de l'algorithme des kmoyennes basée sur cette approche. Ce nouvel algorithme met en place une version des k-moyennes qui s'aranchit du calcul
de la moyenne des grappes.
YANG TANG, University of Guelph
Mélange de modèles de traits latents pour données catégoriques de grandes dimensions
Nous présentons un mélange de modèles de traits latents avec des paramètres de pente communs pour des données catégoriques
de grandes dimensions, type de données pour lequel il existe peu de méthodes établies. Les travaux récents sur le regroupement
des données binaires, fondés sur une variable latente gaussienne de d dimensions, sont généralisés par l'emploi de fonction
de réponse logistique multinomiales. L'utilisation d'une fonction de réponse logistique nous permet de dériver un algorithme
EM variationnel qui nous donne un algorithme EM soluble d'un modèle de densité des variables latentes. Quatorze structures
de covariance sont employées pour minimiser le nombre de paramètres. De plus, cette approche permet une représentation
visuelle de faible dimension des grappes. Nous illustrons notre approche par des données réelles et simulées.
YUHONG WEI, University of Guelph
Moyenne de modèles de mélange pour le groupage et la classication
1
Dans le groupage par modèle, il est fréquent d'ajuster une famille de modèles puis de n'enregistrer que les résultats de
groupage du meilleur modèle. Plutôt que de nous débarrasser de tous les modèles sauf le meilleur, nous mettons au point
des approches permettant de faire la moyenne de plusieurs modèles qui sont proches du meilleur, produisant ainsi une moyenne
pondérée des résultats du groupage. Nous étudions deux approches pour calculer cette moyenne : moyenne des probabilités des
éléments membres et moyenne des modèles. Dans les deux cas, nous utilisons la fenêtre d'Occam pour déterminer la proximité
au meilleur modèle et nous calculons la pondération dans un paradigme de moyenne de modèle bayésien. Dans certains cas,
nous devons fusionner les éléments avant de calculer la moyenne : nous proposons une méthode pour ce faire fondée sur l'indice
de Rand ajusté.
LU XIN, University of Waterloo
Modèles stochastiques par blocs en temps continu pour les réseaux transactionnels
Les données de réseaux transactionnels décrivent les communications entre les acteurs d'un réseau social. Plusieurs chercheurs
ont utilisé des modèles stochastiques par blocs pour détecter les communautés de ces réseaux. Par contre, soit ils ne tiennent
pas compte du temps, soit ils le traitent de façon discrète (avec une chaîne de Markov en temps discret). Nous proposons
un modèle stochastique par blocs en temps continu. En exploitant des idées puisées dans la modélisation par mélanges et
l'analyse d'événements récurrentiels, notre modèle est non seulement capable de détecter des communautés, mais il permet
aussi de décrire l'évolution des schémas de communications au sein de ces communautés. Nous illustrons les avantages de
notre modèle à partir de données réelles sur le basketball de la ligue NBA.
2
Téléchargement