Projet Cancer BASELINE

Téléchargement

Thibaut BIDEAULT - Linh DO NGOC

19 avril 2016

TABLE DES MATIÈRES 2

Table des matières

1 Introduction 3

2 Présentation des données 4

3 Présentation des modèles 5

3.1 Lesmodèleslinéaires.................................. 5

3.2 Les modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3 LesmodèlesCART................................... 8

3.4 Lesforêtsaléatoires .................................. 9

3.5 Moyennes des modèles linéaires et des forêts aléatoires . . . . . . . . . . . . . . . 10

4 Conclusion 11

5 Annexe 12

1 INTRODUCTION 3

1 Introduction

Le projet BASELINE a été créé suite au challenge lancé par EPIDEMIUM. Le challenge est

le suivant :

Les déterminants épidémiologiques du cancer sont complexes, nombreux, parfois diﬃciles à

dissocier et précieux en ce que, une fois connus, ils permettent d’agir le plus en amont sur la mala-

die, avant qu’elle ne survienne. Avec le but de réduire drastiquement le nombre de morts évitables,

le champ de la cancérologie préventive, voire prédictive, fondée sur une meilleure connaissance

épidémiologique des facteurs promoteurs ou protecteurs des cancers, est une des potentialités les

plus prometteuses de la médecine contemporaine.

Si certains liens de causalité entre facteurs d’exposition, comportementale, environnementale,

socio-économique, et la survenue de cancer sont établis avec une grande ﬁabilité, par exemple

le lien entre consommation tabagique et survenue du cancer du poumon, la part attribuable à

de très nombreux autres facteurs reste à ce jour obscure. Comprendre et maîtriser le rôle de ces

déterminants dans la genèse du cancer sont donc des éléments décisifs de la lutte contre le cancer.

Le challenge “Facteurs de risques et Facteurs protecteurs du cancer” consiste à proposer

une solution data-analytique originale permettant de rapporter des données comportementales,

alimentaires, environnementales ou socio-démographiques à la survenue d’un cancer. La part

imputable à un facteur d’exposition dépendra autant de la force de l’association entre facteur

de risque et survenue d’un cancer que de la prévalence de l’exposition. Dit autrement, cette

part imputable peut être importante même si le risque est faible, pourvu que l’exposition soit

importante.

Le projet BASELINE a décidé de suivre l’approche suivante :

1. A partir des jeux de données ayant en commun la région, l’âge et le sexe, nous modéliserons

l’incidence de cancers et la mortalité par cancer selon de nombreuses variables (suivant les données

disponibles, travail de listing de données ici) : c’est la "baseline" (analyse multivariée, par machine

learning ou plus classique : travail de modélisation)

2. Application directe : "quid du saucisson sec ?" La baseline suggèrera notamment l’eﬀet de

variables improbables, autres choses étant égales par ailleurs (travail d’interprétation, littérature

et santé publique)

3. Application indirecte : "quid du club bavarois anti-saucisse ?" Nous comparerons les inci-

dences de cancers de jeux de données locaux à la baseline, pour tenter de découvrir d’autres

eﬀets que ceux modélisés (travail de listing de données, travail de statistiques).

4. En automatisant l’approche, nous pourrons lister et trier les facteurs de risques et de protec-

tion très divers (travail d’automatisation/développement d’outil ; important pour la pérennité)

5. Puis le très important "so what ?" : passer en revue les points majeurs qui se dégagent de

2 PRÉSENTATION DES DONNÉES 4

cette approche très vaste ; interpréter les résultats obtenus, chercher des mesures de prévention

potentielles. Des mesures de prévention inédites ? Les données nous le diront !

2 Présentation des données

La collecte de données eﬀectuée de décembre 2015 à février 2016 a permis de disposer d’une

matrice composée de 6820 lignes et 304 colonnes. Parmi les 304 colonnes, il y a 32 types de cancer

et 229 facteurs de risque du cancer.

Cependant, la diﬃculté à trouver toutes les données de ces facteurs de risque a pour consé-

quence que la matrice est gravement lacunaire.

Pour remédier à ce problème, nous avons décidé de trier ces données. La première hypothèse

a porté sur les types de cancer : nous avons uniquement conservé les lignes où 50% des données

sur les types de cancer étaient présentes. Ce qui a réduit la matrice à 2978 lignes.

La même hypothèse a été appliquée pour les facteurs de risque du cancer : nous avons uni-

quement gardé les facteurs de risque où 50% des données étaient présentes. Ainsi, l’étude a été

établie à partir de 12 facteurs : le pourcentage de population de plus de 60 ans (Pop60, 0% de

données manquantes), le sexe (Gender, 0% de données manquantes ), le pourcentage de popu-

lation urbaine (UrbanPop, 7.69% de données manquantes), le pourcentage du SIDA pour les 15

à 49 ans (HIV1549, 19.51% de données manquantes), le pourcentage de vaccin pour la diphtérie

(DiphVacc, 8.36% de données manquantes), le pourcentage de vaccin pour l’haemophilus (Hib-

Vacc, 49.06% de données manquantes), le pourcentage de vaccin pour la rougeole (MeaslesVacc,

8.36% de données manquantes), le score BMI (BMI, 20.32% de données manquantes), le revenu

(Inc, 43.05% de données manquantes), l’argent dépensé par le gouvernement par personne (Gov-

Health, 32.24% de données manquantes), la tension et le cholestérol dans le sang (PresSang et

CholesSang, 20.32% de données manquantes pour les deux).

Par la suite, nous considérons les appellations suivantes pour les diﬀérents types de cancer :

Type 1 : Tous les cancers (0.34% de données manquantes)

Type 2 : Tous les cancers sauf celui du poumon (0.34% de données manquantes)

Type 3 : Cancer de la vessie (2.22% de données manquantes)

Type 4 : Cancer du système nerveux central (9.27% de données manquantes)

Type 5 : Cancer du sein (50.34% de données manquantes)

Type 6 : Cancer du col de l’utérus (50.37% de données manquantes)

Type 7 : Cancer du colon (4% de données manquantes)

Type 8 : Cancer du colon, du rectum et de l’anus (0% de données manquantes)

Type 9 : Cancer du corps de l’utérus (58.16% de données manquantes)

Type 10 : Cancer de la vésicule biliaire (15.08% de données manquantes)

Type 11 : Lymphome de Hodgkin (17.56% de données manquantes)

Type 12 : Cancer de l’intestin (11.28% de données manquantes)

Type 13 : Cancer du rein (21.86% de données manquantes)

Type 14 : Cancer du larynx (3.79% de données manquantes)

Type 15 : Leucémie (0.13% de données manquantes)

Type 16 : Cancer des lèvres, de la bouche et du pharynx (0.74% de données manquantes)

Type 17 : Cancer des lèvres, de la bouche, du pharynx, du larynx et de l’oesophage (0.34%

de données manquantes)

Type 18 : Cancer du foie (12.46% de données manquantes)

Type 19 : Cancer du poumon (0% de données manquantes)

3 PRÉSENTATION DES MODÈLES 5

Type 20 : Cancer de la peau (6.88% de données manquantes)

Type 21 : Mésothéliome (51.85% de données manquantes)

Type 22 : Myélome multiple (11.85% de données manquantes)

Type 23 : Cancer du Nasopharynx (22.46% de données manquantes)

Type 24 : Lymphome non hodgkinien (9.37% de données manquantes)

Type 25 : Cancer de l’oesophage (1.01% de données manquantes)

Type 26 : Cancer des ovaires (61.08% de données manquantes)

Type 27 : Cancer du pancreas (7.25% de données manquantes)

Type 28 : Cancer de la prostate (49.66% de données manquantes)

Type 29 : Cancer du rectum et de l’anus (5.04% de données manquantes)

Type 30 : Cancer de l’estomac (0.03% de données manquantes)

Type 31 : Cancer des testicules (58.6% de données manquantes)

Type 32 : Cancer de la thyroïde (16.82% de données manquantes)

3 Présentation des modèles

Diﬀérentes approches peuvent être utilisées aﬁn de modéliser l’incidence des cancers :

1. Un modèle linéaire

2. Un modèle linéaire généralisé

3. Un modèle CART

4. Une forêt aléatoire

70% des données ont été utilisées pour calibrer nos modèles et 30% pour les tester. Et chaque

modélisation repose sur le modèle composé de tous les facteurs de risque du cancer, soit le modèle

Y = Intercept + Pop60 + Gender + UrbanPop + HIV1549 + DiphVacc + HibVacc +

MeaslesVacc + BMI + Inc + GovHealth + PresSang + CholesSang

Nous utilisons ensuite la fonction StepAIC de R aﬁn de trouver le modèle optimal pour chaque

type de cancer.

3.1 Les modèles linéaires

La ﬁgure 1 montre que les variables Pop60 et Gender sont toujours présentent dans les

modèles. Ce qui était prévisible car nous possédons toutes les données pour ces variables. Viennent

ensuite les variables CholesSang, Inc et PresSang présentes respectivement dans 27, 26, et 24

modèles. Les autres variables sont quant à elles moins présentes.

1 / 21 100%

Documents connexes

LES FORMULES DANS TOUS LES SENS !

Le parc d`activités de l`Étoile - Ma Ville Bouge

Congrès de la SFP - Nantes, 13-15 Septembre 2007 SOUMISSION

Datamining

Déductions de mesures manquantes avec justifications

Analyse des données incomplètes avec l`application aux

etude collaborative sur l`autisme de l`enfant

Résistance Électrique : Fiche de Révision Collège

PDF version

Données manquantes ou censurées : principes de base.

Lire l`article complet

DEMOGRAPHIE ET CROISSANCE : LE CAS FRANÇAIS La

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Projet Cancer BASELINE

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Projet Cancer BASELINE

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib