2 Travaux réalisés
Pour affiner la stratégie de la thèse, un travail de bibliographie a été mené tant sur le versant
statistique et épidémiologique de la construction de scores dans le domaine médical, que sur
le versant apprentissage automatique et fouille de données du sujet. Ensuite, des mesures de
performance ont été réalisées, elles concernent les multiples configurations possibles de trois
algorithmes (considérés comme lisibles) du domaine de la fouille de données : algorithme des
plus proches voisins, Bayésien naïf et arbres de décisions.
2.1 Score construit sur des données américaines publiques
La première partie de thèse a été consacrée à l’étude de l’algorithme des proches voisins
(en raison de ses performances et de sa lisibilité) et à son utilisation au sein d’une approche
de fouille de données pour la création d’un score de risque du cancer du sein. Nos travaux ont
été appliqués sur une base de données américaine comportant 2,4 millions d’enregistrements.
Cette base étant librement accessible, nous avons pu confronter nos résultats à ceux obtenus
préalablement par Barlow et al.
Notre approche est un succès, car nous avons montré qu’il est possible de construire un
score de risque simple et lisible, grâce à un algorithme des kplus proches voisins (kppv), pour
la prévention primaire du cancer du sein. Notre modèle permet de prédire le risque de cancer du
sein avec autant de succès qu’un modèle logistique habituellement utilisé. Le nombre restreint
d’attributs utilisé en fait un score simple à utiliser. De plus, l’intervention de l’expert dans le
choix du modèle final, parmi les variations proposées, offre la possibilité de ne pas retenir le
modèle à la performance maximale, mais de faire un compromis avec les a priori des médecins
qui l’utiliseront.
Un article, reprenant et justifiant les différentes étapes du processus de la construction du
score de risque et les résultats obtenus, a été publié dans les actes de la conférence DMIN qui
s’est tenue à Las Vegas, États-Unis, du 18 au 21 juillet 2011.
2.2 Score pour les femmes françaises
La seconde partie de la thèse a été consacrée d’une part à l’amélioration de l’algorithme
de fouille des plus proches voisins en faisant varier la formule de la distance et la manière : de
recruter les voisins, de tester les performances des scores générés ou d’influencer l’algorithme
par des connaissances expertes. D’autre part, en parallèle, le processus de création de score de
risque a été appliqué aux données de la cohorte française E3N, un des objectifs de la thèse étant
d’aboutir à un score de risque utilisable sur la population française.
Le processus permet d’inclure les acteurs du domaine (épidémiologiste, donneur d’ordre
comme proxy pour les besoins utilisateur) d’une part dans l’étape de génération d’un jeu de
données compatible avec notre algorithme et les objectifs des futurs utilisateurs du score et
d’autre part, dans l’étape de sélection des scores générés avec l’algorithme.
Ces travaux ont fait l’objet d’un article publié dans les actes de la conférence RCIS qui s’est
tenue à Valence, Espagne, du 16 au 18 mai 2012.
De plus, avec l’aide d’étudiants de Télécom Bretagne, un prototype d’interface graphique,
permettant l’utilisation du score de risque sélectionné, a été mis au point. Après amélioration,
il sera testé à partir de janvier 2013 à l’Institut Gustave Roussy, premier centre de santé dédié
à l’oncologie en Europe, au cours de consultations de prévention du cancer du sein qui se dé-
rouleront dans le cadre d’une clinique du risque développée à l’échelle régionale.
2