Statistique exploratoire sur des données relatives à la Galaxie NGC

Statistique exploratoire sur des données relatives à la
Galaxie NGC 7531
Otmane Nkaira Brice Olivier
17 Octobre 2014
1 Introduction
Le présent rapport a pour objet la mise en oeuvre de notions acquises durant un cours de statistique
exploratoire. Dans ce contexte, nous nous sommes vu attribué l’étude d’un jeu de données relatif à la
galaxie NGC 7531.
Pour ce faire, notre démarche a tout d’abord été de comprendre les enjeux et les notions liées
aux données «galaxy» et donc à l’astrophysique. Ce travail a été nécessaire en l’absence d’un expert
pouvant fournir des explications et des besoins relatifs au jeu de données. Toutefois, cette démarche
s’apparente plutôt à un processus type data mining. Dans notre cas, nous ne partons de rien, d’au-
cun besoin, d’aucune connaissance sur les données et d’aucun à priori, c’est là le but de l’analyse
exploratoire des données.
Ce rapport s’organise comme suit. Tout d’abord, nous présentons quelques notions d’astrophy-
sique et de cosmologie puis décrivons les données dans la section 2. Dans la section 3, nous menons
ce que nous avons défini comme étant l’analyse exploratoire des données. Ainsi, nous analysons les
données selon des méthodes univariées, bivariées, trivariées. Enfin, la section 4 propose une conclu-
sion, ainsi que quelques hypothèses liées aux données.
2 Initiation aux données
2.1 Notions d’astrophysique et cosmologie
Les galaxies sont des vastes disques, nuages de matière, dont la taille et la masse varie fortement.
Les plus petites peuvent contenir quelques millions d’étoiles alors que les plus grandes en contiennent
jusqu’à 1000 milliards. Certaines d’entre elles mesurent des milliers d’années lumière de diamètre,
d’autres, cent fois plus. Au sein de ces galaxies, on peut trouver différent types d’étoiles : des rouges
et jaunes, plus anciennes et des jeunes étoiles bleues et blanches. Il existe plusieurs types de galaxies,
elles peuvent être irrégulières, elliptiques, lenticulaires. Dans notre cas, nous nous intéressons à une
galaxie spirale.
La NGC 7531 possède donc les caractéristiques d’une galaxie spirale. Elle compactée sous forme
de disque d’étoiles, de poussières et de gaz. En son coeur se trouve une boule lumineuse. Elle possède
également des «bras» lumineux en forme de spirale qui émanent depuis son centre, d’où son nom.
Néanmoins, l’absence de lumière ne signifie par pour autant absence de matière car même si elles ne
sont plus lumineuses, des étoiles sont toujours présentes.
Du fait de sa position assez proche de la Terre, la galaxie NGC 7531 a pu être observée à trois
reprises dans les années 80. Elle a tout d’abord été observée dans un premier centre d’observation en
1981 au Chili, puis dans deux centres d’observation disctincts en 1984 en Australie. De plus, au sein
de chaque centre d’observation, les données ont été collectées à des intervalles de temps différents.
1
FIGURE 1 – Schéma modélisant la méthode d’observation et les différentes notions abordées
Ceci nous mène à un total de 7 observations différentes. Lorsqu’une observation est réalisée, elle
consiste notamment à recueillir les coordonées, les positions radiales, les vitesses radiales et l’angle
d’un certain nombre d’étoiles dans la direction de l’observation.
Définition. La position radiale d’une étoile correspond à la distance entre le centre de la galaxie et
cette étoile.
Définition. Par rapport à un observateur, un mouvement peut être décomposé en deux axes orthogo-
naux. L’un, la vitesse radiale, correspond à la vitesse de l’étoile dans la direction et dans le sens de
l’observateur (sur la planète Terre). L’autre, correspond à la vitesse tangentielle, orthogonale à la
vitesse radiale. La vitesse radiale peut donc être interprêtée comme la vitesse à laquelle les étoiles
s’éloignent et s’approchent.
La figure 1 permet de modéliser les différentes notions abordées jusqu’à présent. Les observations
sont capturées à des endroits différents depuis la Terre, située dans la voie lactée. La Terre gravitant
autour du soleil, cela permet également d’observer la galaxie selon plusieurs axes bien distincts.
Ainsi, grâce au décalage de la longueur d’onde d’une raie spectrale, il est possible de calculer la
vitesse radiale.
2.2 Description des données
Dans les données sources dont nous disposons, 5 variables et 323 enregistrements sont présents.
Les variables sont représentées dans le tableau 1. Un enregistrement correspond au recueillement des
diverses variables pour une étoile donnée dans la galaxie. Comme précisé auparavant, les enregis-
trements sont effectués depuis sept emplacements différents, tous passant par l’origine de la galaxie
NGC 7531.
2
variable description
east.west La coordonnée Est/Ouest par rapport au centre de la galaxie. Une valeur
positive signifie que l’on se trouve à l’ouest alors qu’une valeur négative
signifie que l’on se trouve à l’est.
north.south La coordonnée Nord/Sud par rapport au centre de la galaxie. Une valeur
positive signifie que l’on se trouve au Nord alors qu’une valeur négative
signifie que l’on se trouve au Sud.
angle L’angle, en degré et dans le sens contraire des aiguilles d’une montre,
entre l’horizon et la direction de l’observation
radial.position La distance depuis le centre de la galaxie. Elle est négative si la valeur
Est/West l’est aussi.
velocity La vélocité radiale mesurée en km/sec.
TABLE 1: Tableau descriptif des variables
indicateurs east.west north.south angle radial.position velocity
Min. -29.67 -49.11 12.50 -52.40 1409
1st Qu. -7.91 -13.56 63.50 -21.35 1523
Median -0.06 0.67 92.50 -0.80 1586
Mean -0.33 1.52 80.89 -0.84 1594
3rd Qu. 6.95 18.01 102.50 19.65 1669
Max. 29.48 49.89 133.00 55.70 1775
TABLE 2: Tableau du résumé des données
3 Analyse exploratoire des données
3.1 Analyse univariée
Pour l’analyse univariée des données, nous commençons par effectuer un summary sur le jeu de
données qui permet d’avoir une première approche de celles-ci. Le tableau 2 présente les résultats
obtenus.
Celui-ci permet notamment, grâce aux maximums et aux minimums des coordonées, de constater
que la galaxie a une forme elliptique. Elle est en effet plus allongée selon l’axe Nord/Sud. Il permet
également de laisser supposer que les cordonnées ainsi que les positions radiales sont réparties selon
des loi Normale, ce que l’on peut confirmer grâce à la figure 2. Cela se traduit par un phénomène
naturel qui stipule que plus la plupart des corps célestes s’agglutinent autour du centre d’une galaxie.
Ainsi, plus on s’éloigne du centre et plus la densité de corps céleste est faible. Cependant, à la vue de
la distribution de la vélocité, nous ne pouvons pas caractériser cette dernière. Elle est inconstante et
cela pourrait être du au fait qu’elle est correlée à d’autres variables.
3.2 Analyse bivariée
L’analyse bivariée consiste cette fois ci à opposer deux variables. Pour ce faire, nous réalisons un
diagramme de dispersion en opposant chacune des variable deux à deux. Le résultat est obtenu grâce
à la figure 3.
Ce diagramme de dispersion nous permet d’observer plusieurs liens entre les données. Tout d’abord,
lorsque nous croisons les coordonées Nord/Sud et Est/Ouest, nous pouvons aisément observer la ga-
laxie elliptique mais en plus de cela, nous pouvons voir les différents axes selon lesquels la galaxie
a été observée. Globalement, la galaxie a été observée selon la plupart des angles possibles. Dans
le graphique croisant les coordonées Est/Ouest et la position radiale, nous pouvons constater un lien
qui semble se traduire par le fait que plus on se trouve à l’ouest, plus la position radiale est forte. Ce
qui est tout à fait logique étant donné que nous avons défini que la position radiale était positive si
3
FIGURE 2 – Histogramme pour chaque variable
east.west north.south angle radial.position velocity
east.west 1.00 -0.12 -0.05 0.85 0.40
north.south 1.00 0.03 -0.44 -0.89
angle 1.00 -0.05 0.01
radial position 1.00 0.67
velocity 1.00
TABLE 3: Tableau de la corrélation des variables
la coordonée Est/Ouest l’était. En revanche, il ne semble pas y avoir de lien direct entre la position
radiale et la position Nord/Sud, si ce n’est que plus on se trouve dans une extrêmité, plus la position
radiale augmente, ce qui est, une fois de plus tout à fait logique. Si nous comparons maintenant la
vélocité à la coordonée Nord/Sud, nous pouvons voir qu’il y a une très forte corrélation. En effet,
plus l’on se trouve au Sud, plus la vélocité radiale est élevée. Le diagramme opposant la coordonée
Ouest/Est à la vélocité semble traduire un effet assez similaire mais toutefois bien moins prononcé.
Il semblerait toutefois que la vélocité radiale soit plus élevée à l’ouest. Enfin, le graphique opposant
vélocité radiale et position radiale semble dégager le même effet que le précédent mais en encore plus
prononcé. Il semblerait qu’il y est deux effets assez contradictoires : l’un traduisant une corrélation
positive, l’autre, un agglutinement des données au centre de la galaxie. Le tableau 3 nous permet éga-
lement de renforcer nos sentiments sur la corrélation des données. Notons aussi que l’angle n’est pas
du tout corrélé avec les autres variables.
3.3 Analyse trivariée
Comme son nom l’indique, l’analyse trivariée va nous permettre d’analyser les données selon trois
variables. Puisqu’il est difficile de représenter les données 3D dans un environnement 2D, nous choi-
4
FIGURE 3 – Matrice des diagrammes de dispersion
sissons d’étudier un graphique nommé coplot. Il permet, selon deux axes, de projeter un découpage
et une projection du troisième. Ceci donne lieu a plusieurs graphiques. La figure 4 représente la mise
en oeuvre de ce type de graphique.
Cette figure permet très clairement de mettre en avant les liens de corrélation entre nos données.
Premièrement, nous pouvons constater une modulation de la vélocité dans l’espace. En effet, entre
les différentes décompositions, les tendances ne sont plus du tout les mêmes. De plus, le graphique
permet d’énoncer que, dans le Nord-Est de la galaxie, la vitesse radiale est bien plus faible que dans le
Sud/Ouest de celle-ci. Notons également que, lorsque la vélocité radiale dans la zone mediane, nous
nous trouvons généralement sur l’axe uniquement sur l’axe Ouest/Est car la valeur de l’axe Nord/Sud
est pratiquement nulle et ce, peut importe l’éloignement des étoiles par rapport à l’axe Ouest/Est.
Il parait également intéressant de rechercher quel impact l’angle, variable que nous avons délaissé
jusqu’à présent, peut avoir sur notre jeu de données. Ainsi, la figure 5 permet d’analyser la vélocité
radiale en fonction de la distance radiale pour chaque valeur d’angle.
A la vue de ce graphique, l’angle semble avoir une forte incidence sur la vélocité en fonction
de la position radiale. A priori, lorsque l’angle est très petit, on ne pourrait observer que des étoiles
ayant une densité moyenne et non variable. Or nous énoncions juste auparavant que la vélocité était
moyenne lorsque l’on se trouvait sur l’axe Ouest/Est, ce qui voudrait dire que les données selon l’axe
Est/Ouest ont été observées avec un angle très petit. Le graphique montre également que lorsque
l’on prend un angle de plus en plus grand, les amplitudes des données récoltées selon la vélocité
deviennent également de plus en plus grande. Etant donné que la vitesse radiale est minimale au
Nord/Est et maximale au Sud/Ouest, cela voudrait dire que la direction Nord-Est / Sud-West a été
observée avec un grand angle.
Afin d’apporter un peu de lumière sur la corrélation entre les coordonnées et la vitesse radiale,
nous proposons également d’ajuster un modèle linéaire. Nous approximons donc la vitesse radiale
en fonction des coordonnées Nord/Sud et Est/Ouest. Nous obtenons un R-squared de 0.8873 ce qui
5
1 / 8 100%

Statistique exploratoire sur des données relatives à la Galaxie NGC

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !