Université Joseph Fourier
Département Licence Sciences & Technologie
Rapport de Stage
_________________________________________________
ANALYSE CLADISTIQUE POUR LA CLASSIFICATION DES GALAXIES
BUDLOO Ashkwin Rishi
Laboratoire d'accueil: IPAG (Institut Planétologie et Astrophysique de Grenoble)
Rue de la Piscine, Domaine Universitaire
Directeur du laboratoire : M. DESERT François-Xavier
Responsable du stage: M. FRAIX-BURNET Didier
Licence PHYSIQUE-1ère année-Physique, Mécanique et Math
Année universitaire : 2014-2015
04/07/2015
Sommaire
Remerciements……………………………………………………………….….….3
Introduction et déroulement du stage….………………………………………....…4
Explication de la classification cladistique……………………………………..…..5
Nomenclature…………………………………………………………………...…..5
Protocole de l’échantillonnage…………………………………………………...…6
Protocole de l'analyse…………………………………………………………...…..7
Comparaison des arbres…………………………………………………….….…....7
Observations……………………………………………………………….....……..8
Exemples de fonctions que j'ai écrites………………………………………………9
Ce que j'ai appris…………………………………………………….……………..10
Conclusion………………………………………………………………………….10
04/07/2015 2/10
Remerciements
Mme Claire Rist qui a cherché avec ses collègues, la possibilité de recruter un stagiaire.
M Didier Fraix-Burnet qui m'a accepté pour le stage et qui m'a aidé beaucoup j'avais des
difficultés dans le stage.
Morgan Schmitz, un autre stagiaire de M2, qui m'a aidé avec des difficultés aussi.
Le DLST qui a permis d'effectuer ce stage.
04/07/2015 3/10
Introduction
La cladistique est une nouvelle méthode proposée pour la classification des galaxies. La
classification morphologique est utilisée normalement, mais elle n'est pas très rigoureuse. M. Fraix
Burnet a longtemps proposé la cladistique pour faire la classification en regroupant les galaxies
partageant une même histoire. Cette méthode s'inspire aussi de la biologie on classe les
différents espèces, spécimens, et autres êtres vivants. On n'est maintenant pas certain de la viabilité
de cette méthode et c'est pour cela qu'on a mené une simulation de cette méthode avec des données
de plusieurs galaxies. On dispose de 4000 galaxies dont les données peuvent être exploitées (les
données sont viables). Cependant ce nombre de galaxies est trop élevé pour être analysé
directement. Cela aurait pris beaucoup trop de temps et de ressources informatiques. Pour des
raisons de validité statistique aussi on préfère alors échantillonner, et voir si les résultats sont
cohérents sur tous les échantillons représentatifs de la distribution.
Déroulement du stage
Premiers trois jours : Se familiariser avec le langage R.
Première semaine : Faire les échantillons à 200, créer les séries, et analyse des arbres.
Deuxième semaine : Créer plusieurs autres séries pour comprendre l'influence des
paramètres.
Troisième semaine : Écrire les fichiers pdf, modifications des fonctions pour les adapter
aux nouveaux problèmes.
Dernière semaine : Analyses d'arbres plus rigoureuses, écriture de fichiers pdf plus
complètes.
Tout au long du stage : Assister aux séminaires, soutenance de stages, recherches, etc.
04/07/2015 4/10
La classification cladistique en détail
Un arbre est un schéma montrant les changements nécessaires de caractéristiques entre des
individus (humains, animaux, ou autres, mais dans notre cas, des galaxies) pour passer d'un
individu à l'autre. Plusieurs arbres existent pour montrer ces changements, mais on cherche l'arbre
le plus simple, c'est à dire, celui qui présente le moins de changements sur ses branches, car on
imagine que le modèle de l'évolution selon l'arbre le plus simple est plus facile de se produire. (La
probabilité que ce soit cet arbre qui modélise l'évolution est plus élevée que pour les autres arbres,
car il y a moins des changements qui doivent entrer en jeu). On dit que cet arbre est le plus
parcimonieux. Tous les arbres qu'on a dessiné doivent présenter un individu en particulier (le
même pour tous les arbres) tout en haut, et on dit qu'on a enraciné les arbres. Ceci permet de
mieux comparer des arbres entre eux. En effet si les arbres pour un même paramètre se
ressemblent et qu'ils sont bien résolus, c.a.d, pas plus de 2 branches partant d'un nœud, alors on
peut identifier des groupes de par la valeur du paramètre prise par les individus et la proximité des
individus dans l'arbre.
La nomenclature
CAT4cw : La grande matrice contenant tous les détails des 4000
galaxies.
CAT4cwnXXXZ : Où XXX=200 ou 500, Z=a-j. Les échantillons contenant XXX
galaxies.
CAT4cwp0YYnXXXZ : La matrice tronquée de l'échantillon ayant seulement les
valeurs de la série YY.
CAT4cwp0YYnXXXZ.nex : La matrice précédente écrite dans un fichier nexus.
tree4cwp0YYnXXXZ : Objet R contenant l'arbre après l'analyse du fichier nexus et
avec consensus à 70 %.
CAT4cwp0YYnXXX.pdf : Les fichiers pdf contenant les arbres des 10 échantillons par
paramètre, un paramètre par page.
DistrCAT4cwnXXX.pdf : Les fichiers pdf montrant la distribution des échantillons de
taille XXX.
04/07/2015 5/10
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !