!
_____________________________________________________________________________________
4
Introduction1générale1
L’apprentissage statistique ou automatique (machine learning en anglais) se situe à l'intersection de
nombreux domaines (liste non-exhaustive) : l'intelligence artificielle, les sciences cognitives, la théorie
des probabilités, des statistiques, l'optimisation, la théorie des graphes, la sémantique linguistique... Il est
difficile de donner une classification des différentes techniques d'apprentissage.
Ces méthodes s'appliquent à diverses sources de données :
• aux données structurées (numériques)
• aux données non-structurées (images, son, vidéos)
Aussi, nous ne pouvons continuer ce rapport sans aborder, en quelques mots, la fouille de données (data
mining en anglais) :
Les définitions du data mining sont nombreuses et parfois encore assez floues. Mais beaucoup de
scientifiques de la donnée s’accordent à dire que le data mining est l’ensemble des méthodes scientifiques
issues de la statistique, du big data et de l’intelligence artificielle, destinées à l’exploration et l’analyse de
grandes quantités de données en vue de détecter des profils-type, des règles, des liens, restituant
l’essentiel de l’information pour l’aide à la décision.
En résumé, l'objectif est d'extraire d'une masse de données des « informations utiles » (ou la métaphore
du « data mining » qui signifie qu'il y a des trésors ou des pépites cachés sous des montagnes de
données).
Le machine learning consiste à exécuter des algorithmes afin d'extraire, d’interpréter, d'identifier, de
généraliser « ces informations utiles ». À partir de la connaissance des données d'apprentissage,
l'algorithme va déterminer, pour de nouvelles données leurs caractéristiques. En d'autres termes,
l'algorithme apprend des règles, des caractéristiques (des features) qu'il a appris sur les données
d'apprentissage et qu'il va appliquer aux nouvelles données qu'on lui donne.
Les utilisations du machine learning et de la data science sont nombreuses en assurance avec le
développement de nouveaux usages : voitures, maisons et objets connectés. Analyses prédictives du
comportement des clients, recommandations, analyses des réseaux sociaux, ouvertures des données (loi
numérique)…
Aussi nous souhaitons proposer dans ce rapport quelques use cases appliqués à l’assurance.
Les objectifs de ce rapport d'activité sont d’exposer :
- en première partie, les notions essentielles d’apprentissage supervisé et nous donnerons quelques
définitions succinctes des mécanismes et des étapes à mener lors d’une étude,
- en deuxième partie, les algorithmes usuels en machine learning seront parcourus,
- dans une troisième partie, nous aborderons la fouille de texte et les grands principes de techniques
utilisées.