Projet Cancer BASELINE
Thibaut BIDEAULT - Linh DO NGOC
19 avril 2016
1
TABLE DES MATIÈRES 2
Table des matières
1 Introduction 3
2 Présentation des données 4
3 Présentation des modèles 5
3.1 Lesmodèleslinéaires.................................. 5
3.2 Les modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 LesmodèlesCART................................... 8
3.4 Lesforêtsaléatoires .................................. 9
3.5 Moyennes des modèles linéaires et des forêts aléatoires . . . . . . . . . . . . . . . 10
4 Conclusion 11
5 Annexe 12
1 INTRODUCTION 3
1 Introduction
Le projet BASELINE a été créé suite au challenge lancé par EPIDEMIUM. Le challenge est
le suivant :
Les déterminants épidémiologiques du cancer sont complexes, nombreux, parfois difficiles à
dissocier et précieux en ce que, une fois connus, ils permettent d’agir le plus en amont sur la mala-
die, avant qu’elle ne survienne. Avec le but de réduire drastiquement le nombre de morts évitables,
le champ de la cancérologie préventive, voire prédictive, fondée sur une meilleure connaissance
épidémiologique des facteurs promoteurs ou protecteurs des cancers, est une des potentialités les
plus prometteuses de la médecine contemporaine.
Si certains liens de causalité entre facteurs d’exposition, comportementale, environnementale,
socio-économique, et la survenue de cancer sont établis avec une grande fiabilité, par exemple
le lien entre consommation tabagique et survenue du cancer du poumon, la part attribuable à
de très nombreux autres facteurs reste à ce jour obscure. Comprendre et maîtriser le rôle de ces
déterminants dans la genèse du cancer sont donc des éléments décisifs de la lutte contre le cancer.
Le challenge “Facteurs de risques et Facteurs protecteurs du cancer” consiste à proposer
une solution data-analytique originale permettant de rapporter des données comportementales,
alimentaires, environnementales ou socio-démographiques à la survenue d’un cancer. La part
imputable à un facteur d’exposition dépendra autant de la force de l’association entre facteur
de risque et survenue d’un cancer que de la prévalence de l’exposition. Dit autrement, cette
part imputable peut être importante même si le risque est faible, pourvu que l’exposition soit
importante.
Le projet BASELINE a décidé de suivre l’approche suivante :
1. A partir des jeux de données ayant en commun la région, l’âge et le sexe, nous modéliserons
l’incidence de cancers et la mortalité par cancer selon de nombreuses variables (suivant les données
disponibles, travail de listing de données ici) : c’est la "baseline" (analyse multivariée, par machine
learning ou plus classique : travail de modélisation)
2. Application directe : "quid du saucisson sec ?" La baseline suggèrera notamment l’effet de
variables improbables, autres choses étant égales par ailleurs (travail d’interprétation, littérature
et santé publique)
3. Application indirecte : "quid du club bavarois anti-saucisse ?" Nous comparerons les inci-
dences de cancers de jeux de données locaux à la baseline, pour tenter de découvrir d’autres
effets que ceux modélisés (travail de listing de données, travail de statistiques).
4. En automatisant l’approche, nous pourrons lister et trier les facteurs de risques et de protec-
tion très divers (travail d’automatisation/développement d’outil ; important pour la pérennité)
5. Puis le très important "so what ?" : passer en revue les points majeurs qui se dégagent de
2 PRÉSENTATION DES DONNÉES 4
cette approche très vaste ; interpréter les résultats obtenus, chercher des mesures de prévention
potentielles. Des mesures de prévention inédites ? Les données nous le diront !
2 Présentation des données
La collecte de données effectuée de décembre 2015 à février 2016 a permis de disposer d’une
matrice composée de 6820 lignes et 304 colonnes. Parmi les 304 colonnes, il y a 32 types de cancer
et 229 facteurs de risque du cancer.
Cependant, la difficulté à trouver toutes les données de ces facteurs de risque a pour consé-
quence que la matrice est gravement lacunaire.
Pour remédier à ce problème, nous avons décidé de trier ces données. La première hypothèse
a porté sur les types de cancer : nous avons uniquement conservé les lignes où 50% des données
sur les types de cancer étaient présentes. Ce qui a réduit la matrice à 2978 lignes.
La même hypothèse a été appliquée pour les facteurs de risque du cancer : nous avons uni-
quement gardé les facteurs de risque où 50% des données étaient présentes. Ainsi, l’étude a été
établie à partir de 12 facteurs : le pourcentage de population de plus de 60 ans (Pop60, 0% de
données manquantes), le sexe (Gender, 0% de données manquantes ), le pourcentage de popu-
lation urbaine (UrbanPop, 7.69% de données manquantes), le pourcentage du SIDA pour les 15
à 49 ans (HIV1549, 19.51% de données manquantes), le pourcentage de vaccin pour la diphtérie
(DiphVacc, 8.36% de données manquantes), le pourcentage de vaccin pour l’haemophilus (Hib-
Vacc, 49.06% de données manquantes), le pourcentage de vaccin pour la rougeole (MeaslesVacc,
8.36% de données manquantes), le score BMI (BMI, 20.32% de données manquantes), le revenu
(Inc, 43.05% de données manquantes), l’argent dépensé par le gouvernement par personne (Gov-
Health, 32.24% de données manquantes), la tension et le cholestérol dans le sang (PresSang et
CholesSang, 20.32% de données manquantes pour les deux).
Par la suite, nous considérons les appellations suivantes pour les différents types de cancer :
Type 1 : Tous les cancers (0.34% de données manquantes)
Type 2 : Tous les cancers sauf celui du poumon (0.34% de données manquantes)
Type 3 : Cancer de la vessie (2.22% de données manquantes)
Type 4 : Cancer du système nerveux central (9.27% de données manquantes)
Type 5 : Cancer du sein (50.34% de données manquantes)
Type 6 : Cancer du col de l’utérus (50.37% de données manquantes)
Type 7 : Cancer du colon (4% de données manquantes)
Type 8 : Cancer du colon, du rectum et de l’anus (0% de données manquantes)
Type 9 : Cancer du corps de l’utérus (58.16% de données manquantes)
Type 10 : Cancer de la vésicule biliaire (15.08% de données manquantes)
Type 11 : Lymphome de Hodgkin (17.56% de données manquantes)
Type 12 : Cancer de l’intestin (11.28% de données manquantes)
Type 13 : Cancer du rein (21.86% de données manquantes)
Type 14 : Cancer du larynx (3.79% de données manquantes)
Type 15 : Leucémie (0.13% de données manquantes)
Type 16 : Cancer des lèvres, de la bouche et du pharynx (0.74% de données manquantes)
Type 17 : Cancer des lèvres, de la bouche, du pharynx, du larynx et de l’oesophage (0.34%
de données manquantes)
Type 18 : Cancer du foie (12.46% de données manquantes)
Type 19 : Cancer du poumon (0% de données manquantes)
3 PRÉSENTATION DES MODÈLES 5
Type 20 : Cancer de la peau (6.88% de données manquantes)
Type 21 : Mésothéliome (51.85% de données manquantes)
Type 22 : Myélome multiple (11.85% de données manquantes)
Type 23 : Cancer du Nasopharynx (22.46% de données manquantes)
Type 24 : Lymphome non hodgkinien (9.37% de données manquantes)
Type 25 : Cancer de l’oesophage (1.01% de données manquantes)
Type 26 : Cancer des ovaires (61.08% de données manquantes)
Type 27 : Cancer du pancreas (7.25% de données manquantes)
Type 28 : Cancer de la prostate (49.66% de données manquantes)
Type 29 : Cancer du rectum et de l’anus (5.04% de données manquantes)
Type 30 : Cancer de l’estomac (0.03% de données manquantes)
Type 31 : Cancer des testicules (58.6% de données manquantes)
Type 32 : Cancer de la thyroïde (16.82% de données manquantes)
3 Présentation des modèles
Différentes approches peuvent être utilisées afin de modéliser l’incidence des cancers :
1. Un modèle linéaire
2. Un modèle linéaire généralisé
3. Un modèle CART
4. Une forêt aléatoire
70% des données ont été utilisées pour calibrer nos modèles et 30% pour les tester. Et chaque
modélisation repose sur le modèle composé de tous les facteurs de risque du cancer, soit le modèle
suivant :
Y = Intercept + Pop60 + Gender + UrbanPop + HIV1549 + DiphVacc + HibVacc +
MeaslesVacc + BMI + Inc + GovHealth + PresSang + CholesSang
Nous utilisons ensuite la fonction StepAIC de R afin de trouver le modèle optimal pour chaque
type de cancer.
3.1 Les modèles linéaires
La figure 1 montre que les variables Pop60 et Gender sont toujours présentent dans les
modèles. Ce qui était prévisible car nous possédons toutes les données pour ces variables. Viennent
ensuite les variables CholesSang, Inc et PresSang présentes respectivement dans 27, 26, et 24
modèles. Les autres variables sont quant à elles moins présentes.
1 / 21 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !