Secrétariat général 08/01/2015
Service des ressources humaines, des emplois et des compétences
1/2
FICHE DE POSTE
INTITULE DU POSTE
Analyste programmeur en technologies Big Data (H/F)
DESCRIPTIF
Famille professionnelle : Informatique et télécommunications
CONTEXTE
Établissement public et administratif (EPA) à vocation scientifique d’enseignement supérieur, de
recherche et d’innovation de réputation mondiale, l’Ecole Polytechnique développe de façon
intensive son activité autour de la Science des données et du Big Data. De nombreux projets de
recherche sur ces thématiques sont déjà en cours, ceux-ci fédérent plusieurs laboratoires de
recherche (notamment ceux de Mathématiques Appliquées et d’Informatique).
Dans le cadre d’un partenariat entre L’Ecole Polytechnique et la Caisse Nationale d’Assurance
Maladie (CNAM), l’Ecole Polytechnique recrute un analyste programmeur spécialiste de
technologies Big Data. Le partenariat porte sur l’étude statistique de la base données principale de
la CNAM (la base de données SNIIRAM). Cette base enregistre la nature précise (soins, achats de tel
ou tel médicament, etc.) et les montants de toutes les transactions remboursées aux assurés sociaux
(plus de 60 millions d’individus). Il s’agit de l’une des plus importantes bases de données santé du
monde (près de 1000 To de données). Le partenariat porte sur des sujets avec des impacts sociétaux
très forts tant d’un point de vue médical que d’un point de vue économique (la CNAM représente un
des tous premiers budgets de l’Etat Français).
La personne recrutée rejoindra l’équipe de Mathématiciens et Informaticiens de l’Ecole
Polytechnique (9 personnes actuellement) déjà engagés aujourd’hui dans ce partenariat.
DESCRIPTION DU POSTE
Le titulaire du poste participe au développement informatique lié au partenariat entre l’Ecole
Polytechnique et la CNAM. Il s’agit essentiellement, dans un premier temps, de participer à une
restructuration de la base afin de l’alléger (suppression de la redondance et d’informations non
nécessaires aux études statiques) et de la porter vers une solution noSQL. Dans un second temps,
elle sera amenée à participer au portage de techniques innovantes de machine learning sur des
plateformes de cloud comptuting (hadoop, spark, etc.).
Il travaille en étroite collaboration avec le laboratoire de Mathématiques Appliquées (CMAP) et celui
d’Informatique (LIX).
• Design et maintenance de database relationnelle (sql) de grande taille/complexité
• Design et maintenance de database no-sql de grande taille/complexité
• Preprocessing et nettoyage de gros volumes de données
• Développement des dernières techniques en big-data et cloud computing (map-reduce,
hadoop, spark, pig, etc.)