Formation Data-Science pour l’Actuariat 15 Septembre 2015 Formation Data Science pour l’Actuariat Pourquoi? Nouveau contexte : nouveau besoin - Révolution numérique : données massives et hétérogènes, nouveaux comportements clients, nouveaux usages, nouveaux modes de distribution, objets connectés - Nouveaux besoins de compétences pour les entreprises - Nouvelles compétences à acquérir pour les actuaires Réponse: une formation complémentaire pour les actuaires Principes pédagogiques - Complément aux formations à l’actuariat en matière d’extraction, gestion et analyse de données massives et hétérogènes, internes et externes: algorithmes, approche data driven, apprentissage statistique, identification de surapprentissage, robustesse des méthodes - Acquisition conjointe d’un socle de connaissances théoriques et de savoir-faire opérationnels: immersion dans le monde des Data (notamment concours type Kaggle) exemples d’applications aux métiers de l’assurance et la protection sociale - Réalisation d’un projet sur un sujet actuariel encadré par un tuteur Objectifs de la formation A l’issue de sa formation, l’actuaire Data Scientist sera notamment apte à : - mettre en place informatiquement les méthodes statistiques en Python (ou R), - mesurer l'efficacité d'un algorithme (complexité, gestion de la mémoire..) et envisager le calcul parallèle, - prendre des décisions sur le stockage de données dans une entreprise d'assurance, une mutuelle, une institution de prévoyance ou un courtier - mettre en œuvre des méthodes avancées online ou offline. - proposer des outils de reporting et de visualisation afin de synthétiser l'information. Dans le cadre des ses fonctions, ces compétences acquises lui permettront notamment de travailler en équipe et de façon créative avec les fonctions informatiques et marketing pour assurer l’efficacité et la solvabilité de nouvelles offres et de nouvelles méthodes de distribution. Gouvernance de la formation Direction des Etudes: Arthur Charpentier Romuald Elie Jérémie Jakubowicz (Actuaire, Prof. Stat. Rennes et UQAM) (Actuaire, Prof. Maths, Université Paris-Est et ENSAE) (Agrégé et Docteur Maths, Prof Télécom Paris Sud et ENSAE) Comité Scientifique: Michel Bois (Actuaire, DSI CNP, Membre du Comex CNP) Renaud Dumora (Actuaire, DGA Paribas BNP Cardif) Philippe Marie-Jeanne (Actuaire, Directeur Lab Big Data Innovation AXA Group) Françoise Soulié-Fogelman ( ENS, Consultante, ex KXEN) Olivier Sorba (Actuaire, CRO Groupe Lagardère) Marc Hoffmann (Professeur Stat Dauphine et X, Chaire Big Data Havas ILB) Florence Picard (Actuaire, Commission Scientifique Institut des actuaires) Organisme de formation: IRM Institut du risk management Thomas Behar Régis de Laroullière Catherine Idée Rosier Président, Membre du Comex de CNP, Président de l’Institut des Actuaires Directeur, Directeur de l’Institut des Actuaires Responsable des formations Sous le parrainage de la Commission Scientifique de l’Institut des Actuaires Points forts de la formation - Formation spécifiquement dédiée aux actuaires - En prise directe avec les besoins des entreprises - Mixant théorie et pratique pour optimiser l’efficacité opérationnelle - Un contenu pédagogique validée par un Comité Scientifique de haut niveau - Une équipe de direction des études à double compétence: statistiques et informatique - Un contrôle de l’acquisition des connaissances - La réalisation d’un projet sur un sujet actuariel encadré par un tuteur Programme A) Éléments logiciels et programmation Python ~ 24h B) Datamining et programmation R ~ 18h C) Algorithmique en Machine Learning et mise en situation ~ 24h D) Fondements théoriques de l’apprentissage statistique ~ 24h E) Machine Learning distribué et applications ~ 12h F) Contexte actuariel et études de cas pratique ~ 50h * nombre d'heures à titre indicatif Programme A) Éléments logiciels et programmation Python ~ 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques pertinentes. Eléments de programme : - Initiation à la programmation Python - Programmation objet, classes, héritage - Bibliothèque des méthodes statistiques usuelles - Eléments logiciels pour grandes bases de donnée - Hardware, performance machine et gestion de mémoire - Efficacité d'un algorithme - Complexité, accès mémoire, ordres de grandeur Programme B) Datamining et programmation R ~ 18h Objectif : Présenter les outils classiques d'exploration de données, sous un angle essentiellement descriptif. Ce module permettra une remise à niveau en R, en rappelant, durant les premières heures, les bases de la programmation en R. Eléments de programme : - Manipuler des données sous R: données continues, facteurs (recodification), dates, heures - Bases de la programmation avancée en R - Méthodes non-supervisées - Analyse factorielle et détection de clusters Programme C) Algorithmique en machine learning et concours Kaggle ~ 24h Objectif : Approche par mise en situation via la participation à un concours type Kaggle. Présentation des différentes phases : exploration, sélection/transformation des données, algorithmes d’apprentissage, visualisation Eléments de programme : - Etude de cas - Exploration/ Sélection / Transformation / Nettoyage des données - Principaux algorithmes de Machine Learning: K-NN, Régression Logistique, SVM, Forêts aléatoires, Réseaux de Neurones - Boosting, Bagging - Procédures de validation / sélection de modèle - Visualisation - Retour d’expérience et analyse des résultats d’un concours Kaggle Programme D) Fondements théoriques du Machine learning ~ 24h Objectif : Présenter les fondements mathématiques des principaux algorithmes de Machine learning Eléments de programme : - Théorie de la décision, Perte, risque, risque empirique - Modèle statistique pour la classification binaire - Machine Learning, Méthodes paramétriques, perceptron, partitionnement - Algorithmes de classification de données massives, Convexification du risque, boosting et SVM - Méthodes ascendantes et descendantes, Critères AIC et BIC - Limites et améliorations de la régression linéaire: Régression pas à pas, pénalisation: ridge, lasso..., GLM, Méthodes de régression alternatives - Approche non linéaire: polynômes locaux, ondelettes, régression PLS et CART Programme E) Machine Learning distribué et applications ~ 12h Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning vus dans les modules précédents doivent être repensés. Un cadre efficace est celui des algorithmes distribués où on utilise plusieurs entités de calculs pour mener à bien l’objectif initial. L’objectif de ce cours sera de présenter différents exemples d’algorithmes de Machine Learning distribués Eléments de programme : - Principes généraux de la distributions des algorithmes - Le cas de Map-Reduce - Applications en Machine Learning Programme F) Contexte actuariel et études de cas~ 50h Objectif : Description des enjeux économiques et sociétaux de la révolution numérique du Big Data, en particulier les questions éthiques et contraintes juridiques européennes. Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises. Exemple : - Cartographie et GPS - Géolocalisation et anonymisation - Parallélisation massive pour la simulation Monte Carlo - Health monitoring - Visualisation de données et réseaux sociaux - Applications en Génomique - Investissement séquentiel en gestion de portefeuille - ... Programme APPLICATIONS AUX MÉTIERS DE L’ASSURANCE Approfondissements et études de cas ~ 40h Objectif : Présentations de sujets « métier » et mises en situation via des interventions courtes, et techniques, (2 à 4 h) sur des thématiques précises. Exemples : l ... l Enchère web l Réseaux de neurone & e-commerce l Calcul du capital économique en grande dimension l Vente d’assurance en ligne l Visualisation de données et réseaux sociaux l Biosécurité l Parallélisation massive pour la simulation Monte Carlo Organisation temporelle des modules 2016 2017 Mars Avril Mai Juin Sept. Oct. Nov. Déc. Jan. Fév. Mars Avril A) Eléments logiciels et Python B) Datamining et programma=on R C) Algorithmique en machine learning D) Fondements théoriques sta=s=ques E) Machine learning distribué F) Contexte actuariel et études de cas * calendrier donné à titre purement indicatif Corps professoral Equilibre entre profils académiques et professionnels Corps Académique: Ecole Polytechnique, MIT, Univ. Paris 1, Télécom Sud paris, ENSAE, CNRS… Corps professionel: - Du monde des données: CNIL, Microsoft, Dataiku, Critea, Kamaleoon, Datarobot, Quantcube, Teralab … - Du monde actuariel et financier: Milliman, COVEA, Deloitte, Ernst and Young, Advestis, Capital Fund Management, BNP, Cardiff … Réalisation d’un projet Les participants à la formation réaliseront un projet visant à exhiber l'apport de ces nouvelles méthodologies statistiques et informatiques pour la modélisation d'un phénomène actuariel Projet réalisé sous le tutorat d’un membre du corps enseignant de la formation Projet réalisé sur la deuxième moitié de la formation Rédaction d’un rapport et soutenance devant un jury de membres du corps enseignant ainsi que l’ensemble de la promotion (sauf conflit trop important pour cause de confidentialité). Validation de la formation Plusieurs examens ou QCMs au cours de la formation, pour valider l’acquisition de blocs précis de compétences en data science Réalisation et soutenance d’un projet mettant en application les compétences acquises à des problématiques actuarielles Obtention du diplôme Data Science pour l’Actuariat de l’Institut du Risk Management Promotion actuelle 21 stagiaires (dont 25% de femmes) Profil actuariel avec forte sensibilité informatique Entreprises représentées: Groupama, MMA, Pacifica, Crédit Agricole, MAAF, CCR, GMF, Alptis, PricewaterhouseCoopers, Forsides, Actuaris, Optimind-Winter, ACPR, Mercer, CNP, BAO