Statistique exploratoire sur des données relatives à la Galaxie NGC

publicité
Statistique exploratoire sur des données relatives à la
Galaxie NGC 7531
Otmane Nkaira
Brice Olivier
17 Octobre 2014
1
Introduction
Le présent rapport a pour objet la mise en oeuvre de notions acquises durant un cours de statistique
exploratoire. Dans ce contexte, nous nous sommes vu attribué l’étude d’un jeu de données relatif à la
galaxie NGC 7531.
Pour ce faire, notre démarche a tout d’abord été de comprendre les enjeux et les notions liées
aux données «galaxy» et donc à l’astrophysique. Ce travail a été nécessaire en l’absence d’un expert
pouvant fournir des explications et des besoins relatifs au jeu de données. Toutefois, cette démarche
s’apparente plutôt à un processus type data mining. Dans notre cas, nous ne partons de rien, d’aucun besoin, d’aucune connaissance sur les données et d’aucun à priori, c’est là le but de l’analyse
exploratoire des données.
Ce rapport s’organise comme suit. Tout d’abord, nous présentons quelques notions d’astrophysique et de cosmologie puis décrivons les données dans la section 2. Dans la section 3, nous menons
ce que nous avons défini comme étant l’analyse exploratoire des données. Ainsi, nous analysons les
données selon des méthodes univariées, bivariées, trivariées. Enfin, la section 4 propose une conclusion, ainsi que quelques hypothèses liées aux données.
2
2.1
Initiation aux données
Notions d’astrophysique et cosmologie
Les galaxies sont des vastes disques, nuages de matière, dont la taille et la masse varie fortement.
Les plus petites peuvent contenir quelques millions d’étoiles alors que les plus grandes en contiennent
jusqu’à 1000 milliards. Certaines d’entre elles mesurent des milliers d’années lumière de diamètre,
d’autres, cent fois plus. Au sein de ces galaxies, on peut trouver différent types d’étoiles : des rouges
et jaunes, plus anciennes et des jeunes étoiles bleues et blanches. Il existe plusieurs types de galaxies,
elles peuvent être irrégulières, elliptiques, lenticulaires. Dans notre cas, nous nous intéressons à une
galaxie spirale.
La NGC 7531 possède donc les caractéristiques d’une galaxie spirale. Elle compactée sous forme
de disque d’étoiles, de poussières et de gaz. En son coeur se trouve une boule lumineuse. Elle possède
également des «bras» lumineux en forme de spirale qui émanent depuis son centre, d’où son nom.
Néanmoins, l’absence de lumière ne signifie par pour autant absence de matière car même si elles ne
sont plus lumineuses, des étoiles sont toujours présentes.
Du fait de sa position assez proche de la Terre, la galaxie NGC 7531 a pu être observée à trois
reprises dans les années 80. Elle a tout d’abord été observée dans un premier centre d’observation en
1981 au Chili, puis dans deux centres d’observation disctincts en 1984 en Australie. De plus, au sein
de chaque centre d’observation, les données ont été collectées à des intervalles de temps différents.
1
F IGURE 1 – Schéma modélisant la méthode d’observation et les différentes notions abordées
Ceci nous mène à un total de 7 observations différentes. Lorsqu’une observation est réalisée, elle
consiste notamment à recueillir les coordonées, les positions radiales, les vitesses radiales et l’angle
d’un certain nombre d’étoiles dans la direction de l’observation.
Définition. La position radiale d’une étoile correspond à la distance entre le centre de la galaxie et
cette étoile.
Définition. Par rapport à un observateur, un mouvement peut être décomposé en deux axes orthogonaux. L’un, la vitesse radiale, correspond à la vitesse de l’étoile dans la direction et dans le sens de
l’observateur (sur la planète Terre). L’autre, correspond à la vitesse tangentielle, orthogonale à la
vitesse radiale. La vitesse radiale peut donc être interprêtée comme la vitesse à laquelle les étoiles
s’éloignent et s’approchent.
La figure 1 permet de modéliser les différentes notions abordées jusqu’à présent. Les observations
sont capturées à des endroits différents depuis la Terre, située dans la voie lactée. La Terre gravitant
autour du soleil, cela permet également d’observer la galaxie selon plusieurs axes bien distincts.
Ainsi, grâce au décalage de la longueur d’onde d’une raie spectrale, il est possible de calculer la
vitesse radiale.
2.2
Description des données
Dans les données sources dont nous disposons, 5 variables et 323 enregistrements sont présents.
Les variables sont représentées dans le tableau 1. Un enregistrement correspond au recueillement des
diverses variables pour une étoile donnée dans la galaxie. Comme précisé auparavant, les enregistrements sont effectués depuis sept emplacements différents, tous passant par l’origine de la galaxie
NGC 7531.
2
variable
east.west
description
La coordonnée Est/Ouest par rapport au centre de la galaxie. Une valeur
positive signifie que l’on se trouve à l’ouest alors qu’une valeur négative
signifie que l’on se trouve à l’est.
La coordonnée Nord/Sud par rapport au centre de la galaxie. Une valeur
positive signifie que l’on se trouve au Nord alors qu’une valeur négative
signifie que l’on se trouve au Sud.
L’angle, en degré et dans le sens contraire des aiguilles d’une montre,
entre l’horizon et la direction de l’observation
La distance depuis le centre de la galaxie. Elle est négative si la valeur
Est/West l’est aussi.
La vélocité radiale mesurée en km/sec.
north.south
angle
radial.position
velocity
TABLE 1: Tableau descriptif des variables
indicateurs
Min.
1st Qu.
Median
Mean
3rd Qu.
Max.
east.west
-29.67
-7.91
-0.06
-0.33
6.95
29.48
north.south
-49.11
-13.56
0.67
1.52
18.01
49.89
angle
12.50
63.50
92.50
80.89
102.50
133.00
radial.position
-52.40
-21.35
-0.80
-0.84
19.65
55.70
velocity
1409
1523
1586
1594
1669
1775
TABLE 2: Tableau du résumé des données
3
3.1
Analyse exploratoire des données
Analyse univariée
Pour l’analyse univariée des données, nous commençons par effectuer un summary sur le jeu de
données qui permet d’avoir une première approche de celles-ci. Le tableau 2 présente les résultats
obtenus.
Celui-ci permet notamment, grâce aux maximums et aux minimums des coordonées, de constater
que la galaxie a une forme elliptique. Elle est en effet plus allongée selon l’axe Nord/Sud. Il permet
également de laisser supposer que les cordonnées ainsi que les positions radiales sont réparties selon
des loi Normale, ce que l’on peut confirmer grâce à la figure 2. Cela se traduit par un phénomène
naturel qui stipule que plus la plupart des corps célestes s’agglutinent autour du centre d’une galaxie.
Ainsi, plus on s’éloigne du centre et plus la densité de corps céleste est faible. Cependant, à la vue de
la distribution de la vélocité, nous ne pouvons pas caractériser cette dernière. Elle est inconstante et
cela pourrait être du au fait qu’elle est correlée à d’autres variables.
3.2
Analyse bivariée
L’analyse bivariée consiste cette fois ci à opposer deux variables. Pour ce faire, nous réalisons un
diagramme de dispersion en opposant chacune des variable deux à deux. Le résultat est obtenu grâce
à la figure 3.
Ce diagramme de dispersion nous permet d’observer plusieurs liens entre les données. Tout d’abord,
lorsque nous croisons les coordonées Nord/Sud et Est/Ouest, nous pouvons aisément observer la galaxie elliptique mais en plus de cela, nous pouvons voir les différents axes selon lesquels la galaxie
a été observée. Globalement, la galaxie a été observée selon la plupart des angles possibles. Dans
le graphique croisant les coordonées Est/Ouest et la position radiale, nous pouvons constater un lien
qui semble se traduire par le fait que plus on se trouve à l’ouest, plus la position radiale est forte. Ce
qui est tout à fait logique étant donné que nous avons défini que la position radiale était positive si
3
F IGURE 2 – Histogramme pour chaque variable
east.west
north.south
angle
radial position
velocity
east.west
1.00
north.south
-0.12
1.00
angle
-0.05
0.03
1.00
radial.position
0.85
-0.44
-0.05
1.00
velocity
0.40
-0.89
0.01
0.67
1.00
TABLE 3: Tableau de la corrélation des variables
la coordonée Est/Ouest l’était. En revanche, il ne semble pas y avoir de lien direct entre la position
radiale et la position Nord/Sud, si ce n’est que plus on se trouve dans une extrêmité, plus la position
radiale augmente, ce qui est, une fois de plus tout à fait logique. Si nous comparons maintenant la
vélocité à la coordonée Nord/Sud, nous pouvons voir qu’il y a une très forte corrélation. En effet,
plus l’on se trouve au Sud, plus la vélocité radiale est élevée. Le diagramme opposant la coordonée
Ouest/Est à la vélocité semble traduire un effet assez similaire mais toutefois bien moins prononcé.
Il semblerait toutefois que la vélocité radiale soit plus élevée à l’ouest. Enfin, le graphique opposant
vélocité radiale et position radiale semble dégager le même effet que le précédent mais en encore plus
prononcé. Il semblerait qu’il y est deux effets assez contradictoires : l’un traduisant une corrélation
positive, l’autre, un agglutinement des données au centre de la galaxie. Le tableau 3 nous permet également de renforcer nos sentiments sur la corrélation des données. Notons aussi que l’angle n’est pas
du tout corrélé avec les autres variables.
3.3
Analyse trivariée
Comme son nom l’indique, l’analyse trivariée va nous permettre d’analyser les données selon trois
variables. Puisqu’il est difficile de représenter les données 3D dans un environnement 2D, nous choi4
F IGURE 3 – Matrice des diagrammes de dispersion
sissons d’étudier un graphique nommé coplot. Il permet, selon deux axes, de projeter un découpage
et une projection du troisième. Ceci donne lieu a plusieurs graphiques. La figure 4 représente la mise
en oeuvre de ce type de graphique.
Cette figure permet très clairement de mettre en avant les liens de corrélation entre nos données.
Premièrement, nous pouvons constater une modulation de la vélocité dans l’espace. En effet, entre
les différentes décompositions, les tendances ne sont plus du tout les mêmes. De plus, le graphique
permet d’énoncer que, dans le Nord-Est de la galaxie, la vitesse radiale est bien plus faible que dans le
Sud/Ouest de celle-ci. Notons également que, lorsque la vélocité radiale dans la zone mediane, nous
nous trouvons généralement sur l’axe uniquement sur l’axe Ouest/Est car la valeur de l’axe Nord/Sud
est pratiquement nulle et ce, peut importe l’éloignement des étoiles par rapport à l’axe Ouest/Est.
Il parait également intéressant de rechercher quel impact l’angle, variable que nous avons délaissé
jusqu’à présent, peut avoir sur notre jeu de données. Ainsi, la figure 5 permet d’analyser la vélocité
radiale en fonction de la distance radiale pour chaque valeur d’angle.
A la vue de ce graphique, l’angle semble avoir une forte incidence sur la vélocité en fonction
de la position radiale. A priori, lorsque l’angle est très petit, on ne pourrait observer que des étoiles
ayant une densité moyenne et non variable. Or nous énoncions juste auparavant que la vélocité était
moyenne lorsque l’on se trouvait sur l’axe Ouest/Est, ce qui voudrait dire que les données selon l’axe
Est/Ouest ont été observées avec un angle très petit. Le graphique montre également que lorsque
l’on prend un angle de plus en plus grand, les amplitudes des données récoltées selon la vélocité
deviennent également de plus en plus grande. Etant donné que la vitesse radiale est minimale au
Nord/Est et maximale au Sud/Ouest, cela voudrait dire que la direction Nord-Est / Sud-West a été
observée avec un grand angle.
Afin d’apporter un peu de lumière sur la corrélation entre les coordonnées et la vitesse radiale,
nous proposons également d’ajuster un modèle linéaire. Nous approximons donc la vitesse radiale
en fonction des coordonnées Nord/Sud et Est/Ouest. Nous obtenons un R-squared de 0.8873 ce qui
5
F IGURE 4 – Coplots : Coordonées Nord/Sud en fonction des coordonées Est/Ouest étant donné la
vélocité
représente un ajustement plutôt bon. Analysons les résidus au travers de la figure 6.
F IGURE 6 – Graphiques pour l’analyse des résidus
Le premier graphique de cette figure nous montre qu’il y a très peu de données aberrantes. Le
second, permet de mettre en avant une structure dans les résidus, signe d’hétéroscédasticité, c’est
à dire que toute la variance n’a pas été extraite au cours de la regression linéaire. Enfin, le dernier
graphique permet à peu prêt d’accepter l’hypothèse de normalité des résidus.
6
F IGURE 5 – Coplots : Vélocité radiale en fonction de la distance radiale étant donné l’angle
3.4
Vers une observation en trois dimensions
Lors de notre étude, nous avons émis la proposition d’élargir la vue que nous avions des données
en les projettant dans un espace à 3 dimensions, ce qui permettrait peut-être d’apporter encore plus de
sens à nos analyses. En effet, étant donné que nous disposons des coordonnées Nord/Sud et Ouest/Est
et de la distance d’une étoile au centre de la galaxie, il devient aisé de calculer la dernière coordonée
afin de projeter les points en 3D. Afin d’expliquer cela, cherchons à calculer les coordonées d’un point
A(x, y, z) t.q. x ∈ N −S et y ∈ E −W . Notons B, son projeté orthogonal sur l’axe (N −S, E −W ). Notons
dr la distance radiale, en p
ayant doublement
au théorème de Pythagore, il est possible d’obtenir
p recours
2
2
2
2
z en calculant z = dxb = (dxo − dr ) = (x + y − dr2 ). On effectuant les calculs, on retombe sur 0
pour toutes les coordonées. Ce qui signifie que x2 + y2 − dr2 = 0 et donc que x2 + y2 = dr2 . En résumé,
les données ont déjà été projetées sur 2 axes et ne sont donc pas exploitables sur 3 axes.
Ceci nous permet notamment d’expliquer la forte corrélation entre les variables Nord/Sud, Est/Ouest
et la position radiale.
4
Conclusion
L’objet de l’étude de ce rapport a été de présenter les enjeux de la statistique exploratoire sur un
jeu de données lié à la galaxie NGC 7531.
Après avoir ardûment identifié le jeu de données et les notions de physique liées à celui-ci, nous
avons proposé une analyse exploratoire en plusieurs étapes. Nous avons, dans un premier temps,
proposé une analyse univariée des données en ayant recours à de simples résumés des données mais
aussi à des histogrammes. Grâce à cela nous avons pu observer des distributions de lois normales
concernant les planètes autour du centre de la galaxie. Ensuite, nous avons mis en oeuvre une analyse
bivariée dans laquelle nous avons eu recours à des «scatter plots» ainsi qu’à une matrice de corrélation
afin d’expliquer les liens entre les variables deux à deux. Puis, lors d’une analyse trivariée, nous avons
tenté d’apporter une troisième couche afin de pouvoir l’analyse selon trois variables. Cela nous a
permis de montrer que la vélocité radiale était plus élevée dans le Sud-Ouest et plus lente dans le
Nord-Est. Nous avons également pu montrer que choisir l’angle et la position sur la planète Terre
7
était important afin de pouvoir observer la galaxie selon plusieurs axes.
A ce jour, nous émettons deux hypothèses sur ce jeu de données.
Hypothèse. Le phénomène observé, à savoir la modulation de la vitesse radiale des étoiles en fonction de la position des étoiles dans la galaxie, pourrait possiblement être dû à l’influence d’un corps
céleste massif se trouvant à proximité de la galaxie. Cet élément extérieur pourrait ainsi exercer une
force gravitationnelle assez importante pour modifier la vitesse radiale. Il pourrait s’agir d’un trou
noir ou d’une galaxie voisine.
Hypothèse. Le phénomène observé, à savoir la modulation de la vitesse radiale des étoiles en fonction de la position des étoiles dans la galaxie, pourrait possiblement être dû au fait que la vitesse
radiale est plus ou moins forte selon qu’elle s’éloigne ou s’approche de l’observateur. Ce qui pourrait être justifié par le fait que la vitesse radiale est à différencier de la vitesse classique. Les étoiles
pourraient ainsi avoir une vitesse constante mais seule la vitesse radiale pourrait changer étant donné
notre point de vue. Sachant que NGC 7531 se trouve au Sud de la voie lactée, cela voudrait dire qu’un
mouvement Ouest-Sud aurait une plus grande vitesse radiale qu’un mouvement Est-Nord.
Références
R. Buta (1986). The Structure and dynamics of ringed galaxies. III. Surface photometry and kinematics of the ringed nonbarred spiral NGC 7531. The astrophysical journal supplement series,
64 :1-37.
8
Téléchargement