Institut de science financière et
d‟assurances
Projet Cancer BASELINE
MONGTAGNON Adrien-NGUYEN Thi Nga
1
Tableau of Contents
1. Introduction ................................................................................................................... 2
2. Préparation des données ................................................................................................. 3
2.1 La collecte et les filtrages donnés ................................................................................ 3
2.2 Descriptive des données ............................................................................................. 3
3. Préparation des modèles ................................................................................................. 6
3.1 Modèle linaire ................................................................................................................ 6
3.2 Modèles regressions logistiques .................................................................................. 7
4. Conclusion ....................................................................................................................... 12
5. Annexes ........................................................................................................................ 13
2
1. Introduction
Epidemium est un programme de recherche scientifique collaboratif et ouvert à tous dont
l‟ambition est d‟explorer le potentiel des Big Data en épidémiologie du cancer, en proposant
une série de challenges autour de jeux de données ouverts. Pour ce faire, il organise un
Challenge4Cancer (C4C), grand appel à projets d'une durée de six mois, structuré en
plusieurs challenges centrés autour de l'épidémiologie du cancer et de la science des données.
Il met à disposition des participants des jeux de données, un environnement de simulation, un
cadre éthique et juridique et l‟accès à un écosystème pluridisciplinaire d'experts. Le C4C
débute le 5 novembre 2015 et finit le 5 mai 2016.Les challenges sont suivants:
- Comprendre la répartition du cancer dans le temps et dans l‟espace : l‟évolution dans le
temps des cancers et leur répartition géographique sont des informations épidémiologiques
majeures. Ce projet va consister à proposer une solution data-analytique originale permettant
de mieux appréhender la répartition spatiale et temporelle de la maladie cancéreuse dans la
zone géographique (monde, continent, sous-continent, pays, France) et dans la fenêtre
temporelle de votre choix.
-Facteurs de risques et Facteurs protecteurs du cancer: Les déterminants épidémiologiques du
cancer sont complexes, nombreux, parfois difficiles à discernés. Il est particulièrement
intéressant de pouvoir les déterminer car une fois connus, ils permettent d‟agir en amont de la
maladie, avant même qu‟elle ne survienne. Le challenge “Facteurs de risques et Facteurs
protecteurs du cancer” consiste à proposer une solution data-analytique originale qui lie des
données comportementales, alimentaires, environnementales ou sociodémographiques à
survenue d‟un cancer. La part du risque total imputable à un facteur dépendra autant de
l‟importance de ce facteur sur l‟occurrence d‟un cancer que de l‟intensité de l‟exposition à ce
dernier. Autrement dit, cette part imputable peut être importante même si le risque est faible,
du moment que l‟exposition soit importante.
- Cancer et changement climatique : Les changements environnementaux ne sont pas sans
conséquence sur la santé humaine. Mais cela est difficile pour isoler l‟éventuel responsabilité
est un enjeu particulièrement important pour la santé des populations. Le challenge “Cancer
et changement climatique consiste à proposer une solution data-analytique originale
permettant de rapporter des données climatiques ou agro-environnementales à la survenue de
cancers. Imputer la responsabilité de substances ou de groupes de substances dans la
survenue de cancer, ou encore établir des scénarios prospectifs de l‟évolution des cancers liés
à d‟éventuels changements climatiques.
L‟approche :
- Nous prédisons l‟incidence et la mortalité de cancer à travers le monde grâce à l'utilisation
de données ouvertes et avec une granularité régionale.
-Notre approche est Big-Data-orientée. Nous avons recueilli et analyser des données pour
construire un outil testé avec un groupe d'observations de contrôle.
3
2. Préparation des données
2.1 La collecte et les filtrages donnés
Les grands efforts ont été entrepris dans ce projet pour sélectionner les variables (X et Y) et
recueillir des données dans plusieurs pays. La collecte de données effectuée de décembre
2015 à février 2016 a permis de disposer d‟une matrice composée de 6820 lignes et 305
colonnes. Ce sont des données sur le cancer de 85 pays et 198 gions de 1985 à 2015 qui
comprenait 32 types de cancer (Y) et 230 facteurs de risque du cancer(X).
2.2 Descriptive des données
Graphique 1 : Proportion de l’incidence du cancer par sex, 2011
Graphique 2 : nombre de l’incidence du cancer aux femmes par pays, 2011
Lung..C33.34.
Colon..rectum.and.anus..C18.21.
Stomach..C16.
other
cancer 2011, males
Breast..C50.
Lung..C33.34.
Colon..rectum.and.anus..C18.21.
Stomach..C16.
other
cancer 2011, females
4
Graphique 2 : nombre de l’incidence du cancer aux hommes par pays, 2011
Une première observation de nos données nous permet de voir que les incidences du
cancer de l'estomac, du poumon et du côlon, du rectum et de l'anus sont hautes pour les
deux sexes. De plus l’incidence la plus haute est celle du cancer de sein chez les femmes.
Les hommes ont un taux d’incidence de cancer plus élevée que les femmes, en plus
susceptibles que les pays européens avec une incidence élevée de cancer que le reste
du monde. Nous avons fait les deux tests suivants
bc<-mydata[,c(8,5,6,305)]
names(bc)
alcancer<-lm(bc[,1]~bc[,2]+bc[,4])
summary(alcancer)
Call:
lm(formula = bc[, 1] ~ bc[, 2] + bc[, 4])
Residuals:
Min 1Q Median 3Q Max
-13312.5 -2505.0 638.8 3414.9 14454.4
Coefficients:
1 / 27 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !