B. Communauté Scientifiques 1- Domaines applicatifs : Sciences de la Terre (Terre, Océan, Atmosphère) Depuis de nombreuses années, il y a un déploiement de réseaux d’observations sur l’ensemble du globe, de nombreuses expériences à bord de satellites et également des campagnes de mesures inter-disciplinaires qui mobilisent la communauté scientifique pendant plusieurs années. Si on fait le bilan des données ainsi obtenues à accès public ou privé (c'est-à-dire restreint) on peut dire qu’elles représentent une très grande richesse mais sont relativement peu exploitées. Plusieurs raisons en sont à l’origine, citons la limite des moyens de calcul et de stockage, les problèmes liés au rapatriement des données, des outils informatiques pas adaptés à la manipulation de grands jeux de données distribuées ou de plusieurs jeux de données, … De plus, on ne se limite plus à tracer des données, on fait tourner des simulations en assimilant ou non différents jeux de données distribués sur plusieurs sites…. De plus, les chercheurs dans ces domaines, sans pourtant en être responsables officiellement, doivent améliorer la prévision en temps réel des risques naturels afin de répondre aux besoins de la société civile. Dans le cadre de ces applications, l’IPSL et l’IPGP sont intéressés de porter des applications portant sur de grandes masses de données, sur l’exécution de simulations complexes intégrant ces données et sur la fouille et l’extraction de données à partir de grandes bases existantes. L’IPSL est intéressé par deux applications, l’une portant sur la chimie atmosphérique de l’ozone, l’autre sur l’océanographie. Dans le cadre de l’année internationale de l’ozone, un des objectifs est de faire de la prévision de l’ozone dans les zones polaires en temps quasi-réel. Précédant cette démarche, le premier objectif de l'application est d'effectuer des simulations depuis 1980 de la perte d'ozone polaire (arctique et antarctique) à l'aide d'un modèle de chimie-transport utilisant les analyses météorologiques ERA40, et de comparer les champs simulés de certains constituants avec les mesures obtenues par différents instruments satellite ayant fonctionné pendant cette période. Cette simulation est complexe et nécessite la manipulation et l’organisation de grands jeux de données, 45 années d’analyses météorologiques ainsi que des données satellitales de comparaison. Il est clair qu’une telle simulation est difficilement envisageable hors de la grille si on veut obtenir des résultats pour ces 45 hivers arctiques et antarctiques. L'application comprend aussi une fouille de données sur les mesures satellitales afin de détecter les mesures montrant une activation de certains constituants chlorés responsables de la destruction d'ozone. La deuxième application de l’IPSL concerne les données satellitales océaniques. Les données sont disponibles sur des serveurs. L’objectif de cette application est à partir de grande série temporelle d’images satellitales d’effectuer de la classification afin de définir des zones ayant des comportements similaires. Des essais ont déjà été effectués sur un jeu d’images limité. Une des difficultés est que certaines zones ne contiennent pas de mesures ou des mesures incorrectes du à la présence de nuage. Les essais déjà effectués montre le côté innovateur de cette recherche. Un autre aspect est aussi en utilisant la fouille de données de sélectionner les images qui présentent certaines structures. En général, les travaux faits portent sur un nombre très restreint d’images. L'Institut de Physique du Globe de Paris a pour ambition de développer des modèles physiques de tremblement de Terre et d'intégrer ces modèles dans un cadre scientifique et technologique pour l'analyse et la prévention des risques sismiques. Le but est de pouvoir décrire et prévoir en un point particulier du Globe les mouvements associés à des tremblements de Terre, qui viennent de se produire ou qui risquent de se produire dans une période de temps donnée, afin en particulier de guider les réponses post-sismiques. Un tel projet requiert le développement d'une infrastructure et de systèmes d'information permettant : (1) de gérer et manipuler de larges de larges bases de données distribuées intégrant les observations sismologiques, géodésiques (GPS, InSAR) et géologiques, ainsi que des résultats de simulations ; (2) d'exécuter des simulations physiques complexes et des assimilation/inversion de données hétérogènes. Si l'évolution des technologies d'information, en particulier les plateformes de type Grille, ouvrent aujourd'hui de nouvelles perspectives, un tel développement reste complexe en raison des difficultés associées : (1) à la sélection et à la configuration de modèles de simulation compatibles pour le problème géophysique étudié ; (2) au déploiement de ces modèles sur des ressources distribuées et configurables de calcul et de stockage ; (3) à la fouille et à l'extraction de données au sein de larges bases de données distribuées. Dans le contexte de l'analyse du risque sismique ces besoins constituent un ensemble de challenges nécessitant une étroite collaboration entre géophysiciens, informaticiens et numériciens dans les domaines suivants : L'hétérogénéité et la multiplicité des modèles, qui impliquent la manipulation de nombreux objets et algorithmes dont les données d'entrée et de sortie requièrent une traduction syntactique et des tables sémantiques ; Le développement distribué des modèles, qui implique des outils de gestions de ressource adaptés à des organisations différentes avec des expertises propres ; La configuration des ressources de calcul et de stockage pour les modèles de simulation et d'assimilation ; La gestion et la manipulation (accès, fouilles, visualisation) de large bases de données hétérogènes. Les axes de recherche à ce niveau sont : 1. La représentation des connaissances afin de gérer une hétérogénéité de modèles et de capturer les relations complexes entre processus physiques et algorithmes, algorithmes et codes de simulation, codes de simulation et données. 2. La modélisation de l'information impliquant des algorithmes de navigation et de manipulation de grands volumes de données hétérogènes (sismologie, GPS, InSAR, géologie) via une hiérarchisation et « clusterisation » de l'information. 3. L'analyse et l'extraction d'information impliquant une architecture ouverte et des outils de traitement et de visualisation en particulier pour les données en temps réel. 4. Le développement d'algorithmes tolérant aux pannes (stockage et calcul) sur la grille pour fiabiliser les simulations et inversions quasi-opérationnelles associées à l'analyse du risque sismique. 5. L'intégration de techniques interactives d'acquisition de connaissance au sein de la grille autorisant les utilisateurs à automatiquement configurer les ressources et le déploiement sur la grille pour modèles de simulation et d'assimilation intégrant des données sismologiques, géodésiques (GPS, InSAR) et géologiques. Dans ce cadre, les développements envisagés par l'IPGP seront centrés autour de : (1) la localisation des tremblements de Terre régionaux et la production de carte de mouvements au sol par intégration des données sismologiques, géodésiques et géologiques ; (2) le déploiement automatisé sur la grille d'outils de simulation de rupture dynamique et propagation d'ondes parallèles (MPI) tolérant aux pannes ; (3) des outils de navigation et d'extraction d'information au sein de larges bases de données sismologiques et géodésiques distribuées. Aussi dans le cadre du projet DataGrid et EGEE la communauté Sciences de la Terre (Terre, Océan, Atmosphère) a déployé de nombreuses applications pour tester la réponse de la grille et voir si elle répondait aux besoins des Sciences de la Terre. Notre conviction aujourd’hui est que la grille, compte tenu de son extension, doit être maintenant utilisée pour des applications complexes portant sur de grandes masses de données avec le développement d’outils informatiques spécifiques. Les applications portées concernent : l’observation de la terre par satellite (IPSL, ESA, KNMI= : production avec des algorithmes complexes de profils d’ozone issus de l’expérience satellitale, Gome, et validation des 7 années de données obtenus avec 3 algorithmes. Sismologie (IPGP) : la première application porte sur la détermination des mécanismes, et de l’épicentre d’un tremblement de terre dans la journée qui le suit. La deuxième application (en collaboration avec l'Université de Pau), permet d'effectuer des simulations numériques de tremblements de terre dans des structures géologiques tridimensionnelles complexes. Cette application écrite en MPI est très modulable. Hydrologie : deux applications pour répondre aux besoins de la société civile. La première concerne les crues du Danube et la seconde l’intrusion d’eau de mer dans les nappes côtières de la méditerranée. Géosciences (Compagnie Générale de Géophysique) : Plateforme logiciel sismique accessible gratuitement aux Instituts de Recherche, et avec paiement pour les sociétés privées.