Formation Data-Science pour l`Actuariat

publicité
Formation
Data-Science pour l’Actuariat
15 Septembre 2015
Formation Data Science pour l’Actuariat
Pourquoi?
Nouveau contexte : nouveau besoin
-  Révolution numérique :
données massives et hétérogènes, nouveaux comportements clients,
nouveaux usages, nouveaux modes de distribution, objets connectés
-  Nouveaux besoins de compétences pour les entreprises
-  Nouvelles compétences à acquérir pour les actuaires
Réponse: une formation complémentaire pour les actuaires
Principes pédagogiques
-  Complément aux formations à l’actuariat en matière d’extraction, gestion
et analyse de données massives et hétérogènes, internes et externes:
algorithmes, approche data driven, apprentissage statistique, identification de surapprentissage, robustesse des méthodes
-  Acquisition conjointe d’un socle de connaissances théoriques et de
savoir-faire opérationnels:
immersion dans le monde des Data (notamment concours type Kaggle)
exemples d’applications aux métiers de l’assurance et la protection sociale
- Réalisation d’un projet sur un sujet actuariel encadré par un tuteur
Objectifs de la formation
A l’issue de sa formation, l’actuaire Data Scientist sera notamment apte à :
-  mettre en place informatiquement les méthodes statistiques en Python (ou
R),
-  mesurer l'efficacité d'un algorithme (complexité, gestion de la mémoire..) et
envisager le calcul parallèle,
-  prendre des décisions sur le stockage de données dans une entreprise
d'assurance, une mutuelle, une institution de prévoyance ou un courtier
-  mettre en œuvre des méthodes avancées online ou offline.
-  proposer des outils de reporting et de visualisation afin de synthétiser
l'information.
Dans le cadre des ses fonctions, ces compétences acquises lui permettront
notamment de travailler en équipe et de façon créative avec les fonctions
informatiques et marketing pour assurer l’efficacité et la solvabilité de
nouvelles offres et de nouvelles méthodes de distribution.
Gouvernance de la formation
Direction des Etudes:
Arthur Charpentier
Romuald Elie
Jérémie Jakubowicz
(Actuaire, Prof. Stat. Rennes et UQAM)
(Actuaire, Prof. Maths, Université Paris-Est et ENSAE)
(Agrégé et Docteur Maths, Prof Télécom Paris Sud et ENSAE)
Comité Scientifique:
Michel Bois
(Actuaire, DSI CNP, Membre du Comex CNP)
Renaud Dumora
(Actuaire, DGA Paribas BNP Cardif)
Philippe Marie-Jeanne
(Actuaire, Directeur Lab Big Data Innovation AXA Group)
Françoise Soulié-Fogelman ( ENS, Consultante, ex KXEN)
Olivier Sorba
(Actuaire, CRO Groupe Lagardère)
Marc Hoffmann
(Professeur Stat Dauphine et X, Chaire Big Data Havas ILB)
Florence Picard
(Actuaire, Commission Scientifique Institut des actuaires)
Organisme de formation: IRM Institut du risk management
Thomas Behar
Régis de Laroullière
Catherine Idée Rosier
Président, Membre du Comex de CNP, Président de l’Institut des Actuaires
Directeur, Directeur de l’Institut des Actuaires
Responsable des formations
Sous le parrainage de la
Commission Scientifique de l’Institut des Actuaires
Points forts de la formation
-  Formation spécifiquement dédiée aux actuaires
-  En prise directe avec les besoins des entreprises
-  Mixant théorie et pratique pour optimiser l’efficacité opérationnelle
-  Un contenu pédagogique validée par un Comité Scientifique de haut niveau
-  Une équipe de direction des études à double compétence: statistiques et informatique
-  Un contrôle de l’acquisition des connaissances
-  La réalisation d’un projet sur un sujet actuariel encadré par un tuteur
Programme
A)  Éléments logiciels et programmation Python
~ 24h
B)  Datamining et programmation R
~ 18h
C)  Algorithmique en Machine Learning et mise en situation ~ 24h
D)  Fondements théoriques de l’apprentissage statistique
~ 24h
E)  Machine Learning distribué et applications
~ 12h
F)  Contexte actuariel et études de cas pratique
~ 50h
* nombre d'heures à titre indicatif
Programme
A) Éléments logiciels et programmation Python ~ 24h
Objectif : Introduction au langage Python et sensibilisation aux
grandeurs informatiques pertinentes.
Eléments de programme :
-  Initiation à la programmation Python
-  Programmation objet, classes, héritage
-  Bibliothèque des méthodes statistiques usuelles
-  Eléments logiciels pour grandes bases de donnée
-  Hardware, performance machine et gestion de mémoire
-  Efficacité d'un algorithme
-  Complexité, accès mémoire, ordres de grandeur
Programme
B) Datamining et programmation R ~ 18h
Objectif : Présenter les outils classiques d'exploration de données, sous
un angle essentiellement descriptif. Ce module permettra une remise à
niveau en R, en rappelant, durant les premières heures, les bases de la
programmation en R.
Eléments de programme :
-  Manipuler des données sous R: données continues, facteurs
(recodification), dates, heures
-  Bases de la programmation avancée en R
-  Méthodes non-supervisées
-  Analyse factorielle et détection de clusters
Programme
C) Algorithmique en machine learning et concours Kaggle ~ 24h
Objectif : Approche par mise en situation via la participation à un
concours type Kaggle. Présentation des différentes phases : exploration,
sélection/transformation des données, algorithmes d’apprentissage,
visualisation
Eléments de programme :
-  Etude de cas
-  Exploration/ Sélection / Transformation / Nettoyage des données
-  Principaux algorithmes de Machine Learning: K-NN, Régression
Logistique, SVM, Forêts aléatoires, Réseaux de Neurones
-  Boosting, Bagging
-  Procédures de validation / sélection de modèle
-  Visualisation
-  Retour d’expérience et analyse des résultats d’un concours Kaggle
Programme
D) Fondements théoriques du Machine learning
~ 24h
Objectif : Présenter les fondements mathématiques des principaux
algorithmes de Machine learning
Eléments de programme :
-  Théorie de la décision, Perte, risque, risque empirique
-  Modèle statistique pour la classification binaire
-  Machine Learning, Méthodes paramétriques, perceptron, partitionnement
-  Algorithmes de classification de données massives, Convexification du risque,
boosting et SVM
-  Méthodes ascendantes et descendantes, Critères AIC et BIC
-  Limites et améliorations de la régression linéaire: Régression pas à pas,
pénalisation: ridge, lasso..., GLM, Méthodes de régression alternatives
-  Approche non linéaire: polynômes locaux, ondelettes, régression PLS et CART
Programme
E) Machine Learning distribué et applications ~ 12h
Objectif : Pour passer à l’échelle, les algorithmes de Machine Learning
vus dans les modules précédents doivent être repensés. Un cadre
efficace est celui des algorithmes distribués où on utilise plusieurs
entités de calculs pour mener à bien l’objectif initial. L’objectif de ce cours
sera de présenter différents exemples d’algorithmes de Machine
Learning distribués
Eléments de programme :
- Principes généraux de la distributions des algorithmes
- Le cas de Map-Reduce
- Applications en Machine Learning
Programme
F) Contexte actuariel et études de cas~ 50h
Objectif : Description des enjeux économiques et sociétaux de la révolution
numérique du Big Data, en particulier les questions éthiques et contraintes
juridiques européennes.
Présentations de sujets « métier » et mises en situation via des interventions
courtes, et techniques, (2 à 4 h) sur des thématiques précises.
Exemple :
-  Cartographie et GPS
-  Géolocalisation et anonymisation
-  Parallélisation massive pour la simulation Monte Carlo
-  Health monitoring
-  Visualisation de données et réseaux sociaux
-  Applications en Génomique
-  Investissement séquentiel en gestion de portefeuille
-  ...
Programme
APPLICATIONS AUX MÉTIERS DE L’ASSURANCE
Approfondissements et études de cas ~ 40h
Objectif : Présentations de sujets « métier » et mises en situation via des
interventions courtes, et techniques, (2 à 4 h) sur des thématiques
précises.
Exemples :
l  ...
l  Enchère web
l  Réseaux de neurone & e-commerce
l  Calcul du capital économique en grande dimension
l  Vente d’assurance en ligne
l  Visualisation de données et réseaux sociaux
l  Biosécurité
l  Parallélisation massive pour la simulation Monte Carlo
Organisation temporelle des modules
2016 2017 Mars Avril Mai Juin Sept. Oct. Nov. Déc. Jan. Fév. Mars Avril A) Eléments logiciels et Python B) Datamining et programma=on R C) Algorithmique en machine learning D) Fondements théoriques sta=s=ques E) Machine learning distribué F) Contexte actuariel et études de cas * calendrier donné à titre purement indicatif
Corps professoral
Equilibre entre profils académiques et professionnels
Corps Académique:
Ecole Polytechnique, MIT, Univ. Paris 1, Télécom Sud paris, ENSAE, CNRS…
Corps professionel:
-  Du monde des données: CNIL, Microsoft, Dataiku, Critea, Kamaleoon,
Datarobot, Quantcube, Teralab …
-  Du monde actuariel et financier: Milliman, COVEA, Deloitte, Ernst and
Young, Advestis, Capital Fund Management, BNP, Cardiff …
Réalisation d’un projet
—  Les participants à la formation réaliseront un projet visant à exhiber
l'apport de ces nouvelles méthodologies statistiques et
informatiques pour la modélisation d'un phénomène actuariel
—  Projet réalisé sous le tutorat d’un membre du corps enseignant de la
formation
—  Projet réalisé sur la deuxième moitié de la formation
—  Rédaction d’un rapport et soutenance devant un jury de membres du
corps enseignant ainsi que l’ensemble de la promotion (sauf conflit
trop important pour cause de confidentialité).
Validation de la formation
—  Plusieurs examens ou QCMs au cours de la formation,
pour valider l’acquisition de blocs précis de
compétences en data science
—  Réalisation et soutenance d’un projet mettant en
application les compétences acquises à des
problématiques actuarielles
—  Obtention du diplôme Data Science pour l’Actuariat
de l’Institut du Risk Management
Promotion actuelle
—  21 stagiaires (dont 25% de femmes)
—  Profil actuariel avec forte sensibilité informatique
—  Entreprises représentées:
Groupama, MMA, Pacifica, Crédit Agricole, MAAF,
CCR, GMF, Alptis, PricewaterhouseCoopers, Forsides,
Actuaris, Optimind-Winter, ACPR, Mercer, CNP, BAO
Téléchargement