Développement et communication d`un paquet R pour l`algorithme

publicité
Sujet d’atelier – m2 tide 2010-2011
Développement et communication d’un paquet R
pour l’algorithme Fisher-EM
Encadrants :
• Charles Bouveyron ([email protected])
• Camille Brunet ([email protected])
Contexte: De nos jours, la plupart des applications scientifiques portent sur des données dites de
grandes dimensions i.e. des observations qui sont décrites par un très grand nombre de variables.
L’analyse de ce type de données présente des problèmes liés d’une part, à l’extraction d’information
(existe-t-il des groupes homogènes dans les données ?) et d’autre part à l’interprétation des résultats
(qu’est-ce qui caractérise ces groupes? peut-on les visualiser?). Une méthode récente de classification
non supervisée, appelée Fisher-EM, se base sur le modèle de mélange gaussien et combine à la fois
la modélisation des données et la réduction de dimension. L’estimation des paramètres du mélange
est faite par maximum de vraisemblance et la réduction de dimension s’effectue par l’estimation d’une
transformation linéaire qui maximise la distance inter-classe.
Objectifs: L’objectif de cet atelier est le développement d’un paquet R dédié à la méthode Fisher-EM.
Pour cela, il sera nécessaire dans un premier temps d’étudier et de comprendre la théorie liée à cette
méthode. Dans un deuxième temps, l’algorithme Fisher-EM devra être implanté dans le langage R
sous forme de fonctions, lesquelles devront être vérifiées préalablement sur des données simulées et
réelles avant de créer un paquet R. Enfin, un document scientifique présentant le paquet R et son
utilisation devra être rédigé en anglais et ce, afin de faciliter la diffusion et l’utilisation du paquet R.
Compétences:
- Statistique : modèle de mélange, maximum de vraisemblance, algorithme EM,
- Informatique : programmation en R,
- Rédaction d’un document scientifique en anglais.
Référence:
- Bouveyron C., Brunet C. 2010, Simultaneous model-based clustering and visualization in the Fisher
discriminative subspace, Preprint HAL n°00492406.
1
Téléchargement