!
_____________________________________________________________________________________
1
CLUB ALGO
RAPPORT D’ETUDES 2016
!
_____________________________________________________________________________________
2
Membres du Club
ü Alexandre Keiflin (DataSquare)
ü Anaïs Martinez (Axa)
ü Anne-Claire Martial (Actuaris)
ü Aurélien Pichard (Actuaris)
ü Christophe Geissler (Advestis)
ü Eléonore Haguet-Trouplin (Actuaris)
ü Florence Picard (IA)
ü Florian Pons (Groupama)
ü Gaël Virot (Pacifica)
ü Imen Said (Mazars)
ü Kehzan Shi (Aviva)
ü Laurent Jaffres
ü Lucile Beaune (Actuaris)
ü Marine Niedzwiedz (Actuaris)
ü Maryse Dama (Groupama)
ü Matthieu Cutivet (Axa)
ü Nathalie Ramos (Banque de France)
Table des matières
Préambule ........................................................................................................................................... 3!
Introduction générale ........................................................................................................................ 4!
Première partie – Machine learning ....................................................................................... 6!
Deuxième partie : Les algorithmes utilisés en machine learning ....................................... 15!
Troisième partie : Introduction à la fouille textuelle ........................................................... 24!
Quatrième partie : Études menées en 2016 par le Club Algo ............................................. 29!
4.1!Prévention routière ............................................................................................... 30!
4.2!Challenge Maif : .................................................................................................... 34!
4.3!Pricing Game 2016 ................................................................................................ 39!
4.4!Assurance Prairie ................................................................................................. 45!
4.5!Text Mining : Detecting Insults in Social Community ...................................... 52!
Cinquième partie : Calculs parallèles ................................................................................... 58!
Synthèse et projets 2017 ......................................................................................................... 62!
Bibliographie ........................................................................................................................... 64!
Liens d’intérêts ........................................................................................................................ 64!
Forums ..................................................................................................................................... 64!
!
_____________________________________________________________________________________
3
Préambule!
Le Club Algo a été lancé le 13 juin 2016. Il constitue un sous-groupe du groupe de travail « Big Data » de
l’Institut des actuaires, créé par Florence Picard en décembre 2013.
Son objectif est double :
Échanger librement sur l’utilisation des algorithmes et les bonnes pratiques.
Rédiger un rapport des travaux menés sur les algorithmes, à destination d’un public
d’actuaire et à disposition de l’Institut des Actuaires.
Le Club s’est réuni trois fois en 2016 : le 13 juin (date de lancement du Club), le 3 octobre et le
12 décembre.
Cinq études ont été menées :
1. Prévention routière : Études des accidents corporels
2. Challenge Maif : Décodage d’une formule de pricing
3. Pricing Game 2016 : Proposer un tarif auto
4. Assurance Prairie : La France découpée grâce à la télédétection
5. Text Mining : Detecting Insults in Social Community
Le matériel informatique est devenu incontournable pour le métier de Data Scientist ; aussi il est proposé
une introduction aux calculs parallèles à la fin de ce rapport.
Notre rapport d'activité 2016 introduit en premier lieu les notions générales de machine learning, expose
les algorithmes usuels et présente les études abordées en 2016 (énumérées ci-dessus).
Ce rapport n’a pas vocation à établir des démonstrations mathématiques ou statistiques. Il s’attache
uniquement à la pratique et à la mise en œuvre sur des cas concrets d’application au domaine de
l’assurance d’algorithmes usuels de machine learning.
Remerciements à :
Xavier Conort et Michel Crucianu
pour nous avoir autorisé à utiliser leurs travaux sur la fouille de données.
!
_____________________________________________________________________________________
4
Introduction1générale1
L’apprentissage statistique ou automatique (machine learning en anglais) se situe à l'intersection de
nombreux domaines (liste non-exhaustive) : l'intelligence artificielle, les sciences cognitives, la théorie
des probabilités, des statistiques, l'optimisation, la théorie des graphes, la sémantique linguistique... Il est
difficile de donner une classification des différentes techniques d'apprentissage.
Ces méthodes s'appliquent à diverses sources de données :
aux données structurées (numériques)
aux données non-structurées (images, son, vidéos)
Aussi, nous ne pouvons continuer ce rapport sans aborder, en quelques mots, la fouille de données (data
mining en anglais) :
Les définitions du data mining sont nombreuses et parfois encore assez floues. Mais beaucoup de
scientifiques de la donnée s’accordent à dire que le data mining est l’ensemble des méthodes scientifiques
issues de la statistique, du big data et de l’intelligence artificielle, destinées à l’exploration et l’analyse de
grandes quantités de données en vue de détecter des profils-type, des règles, des liens, restituant
l’essentiel de l’information pour l’aide à la décision.
En résumé, l'objectif est d'extraire d'une masse de données des « informations utiles » (ou la métaphore
du « data mining » qui signifie qu'il y a des trésors ou des pépites cachés sous des montagnes de
données).
Le machine learning consiste à exécuter des algorithmes afin d'extraire, d’interpréter, d'identifier, de
généraliser « ces informations utiles ». À partir de la connaissance des données d'apprentissage,
l'algorithme va déterminer, pour de nouvelles données leurs caractéristiques. En d'autres termes,
l'algorithme apprend des règles, des caractéristiques (des features) qu'il a appris sur les données
d'apprentissage et qu'il va appliquer aux nouvelles données qu'on lui donne.
Les utilisations du machine learning et de la data science sont nombreuses en assurance avec le
développement de nouveaux usages : voitures, maisons et objets connectés. Analyses prédictives du
comportement des clients, recommandations, analyses des réseaux sociaux, ouvertures des données (loi
numérique)…
Aussi nous souhaitons proposer dans ce rapport quelques use cases appliqués à l’assurance.
Les objectifs de ce rapport d'activité sont d’exposer :
- en première partie, les notions essentielles d’apprentissage supervisé et nous donnerons quelques
définitions succinctes des mécanismes et des étapes à mener lors d’une étude,
- en deuxième partie, les algorithmes usuels en machine learning seront parcourus,
- dans une troisième partie, nous aborderons la fouille de texte et les grands principes de techniques
utilisées.
!
_____________________________________________________________________________________
5
- En quatrième partie, seront présentées les différentes études et challenges que nous avons menés
tout au long de l’année 2016 au Club Algo.
- Puis, la cinquième partie nous proposera une introduction au calcul parallèle.
Enfin, nous donnerons en conclusion la synthèse de ces études et nous proposerons de nouveaux projets
pour 2017.
1 / 65 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !