Gestion et exploration des grandes masses de données scientifiques
issues d'observations astronomiques grand champ
Amin Mesmoudi
1
Contexte
fi CNRS-Mastodons 2012-2016
Projet LSST
2
Stockage:
3
Table
Taille
#enregistrements
#colonnes (
arité
)
Object
109 TB
38 B
470
Moving
Object
5 GB
6 M
100
Source
3.6 PB
5 T
125
Forced
Source
1.1 PB
32 T
7
Difference
Image Source
71 TB
200 B
65
CCD
Exposure
0.6 TB
17 B
45
Les Besoins LSST en stockage et accès aux données (1/2)
Les Besoins LSST en stockage et accès aux données (2/2)
Accès
Requêtes déclaratives (SQL)
Possibilité de définir des fonctions
ad hoc par l’utilisateur (UDF)
Exemple: areaspec_box, angSep < dist
500,000 requêtes par jour
4
SELECT objectId, taiMidPoint, fluxToAbMag(psfMag)
FROM Source JOIN Object USING(objectId) JOIN Filter
USING(filterId)
WHERE areaSpec_box(:raMin, :declMin, :raMax,
:declMax) AND filterName ='u' AND variability
BETWEEN :varMin AND :varMax
ORDER BY objectId, taiMidPoint ASC
Objectifs généraux
Proposer une architecture distribuée capable de
stocker +100 PB de données
Open Source
Shared-Nothing
Pouvoir évaluer aussi bien des requêtes simples
(quelques secondes de calculs) que des requêtes
complexes (des jours de calculs)
Possibilité d’accéder à des objets en utilisant des
indexes ou en procédant à un parcours (scan)
complet des grosses tables (>> 1 PB)
5
1 / 21 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !