2 PRÉSENTATION DES DONNÉES 4
cette approche très vaste ; interpréter les résultats obtenus, chercher des mesures de prévention
potentielles. Des mesures de prévention inédites ? Les données nous le diront !
2 Présentation des données
La collecte de données effectuée de décembre 2015 à février 2016 a permis de disposer d’une
matrice composée de 6820 lignes et 304 colonnes. Parmi les 304 colonnes, il y a 32 types de cancer
et 229 facteurs de risque du cancer.
Cependant, la difficulté à trouver toutes les données de ces facteurs de risque a pour consé-
quence que la matrice est gravement lacunaire.
Pour remédier à ce problème, nous avons décidé de trier ces données. La première hypothèse
a porté sur les types de cancer : nous avons uniquement conservé les lignes où 50% des données
sur les types de cancer étaient présentes. Ce qui a réduit la matrice à 2978 lignes.
La même hypothèse a été appliquée pour les facteurs de risque du cancer : nous avons uni-
quement gardé les facteurs de risque où 50% des données étaient présentes. Ainsi, l’étude a été
établie à partir de 12 facteurs : le pourcentage de population de plus de 60 ans (Pop60, 0% de
données manquantes), le sexe (Gender, 0% de données manquantes ), le pourcentage de popu-
lation urbaine (UrbanPop, 7.69% de données manquantes), le pourcentage du SIDA pour les 15
à 49 ans (HIV1549, 19.51% de données manquantes), le pourcentage de vaccin pour la diphtérie
(DiphVacc, 8.36% de données manquantes), le pourcentage de vaccin pour l’haemophilus (Hib-
Vacc, 49.06% de données manquantes), le pourcentage de vaccin pour la rougeole (MeaslesVacc,
8.36% de données manquantes), le score BMI (BMI, 20.32% de données manquantes), le revenu
(Inc, 43.05% de données manquantes), l’argent dépensé par le gouvernement par personne (Gov-
Health, 32.24% de données manquantes), la tension et le cholestérol dans le sang (PresSang et
CholesSang, 20.32% de données manquantes pour les deux).
Par la suite, nous considérons les appellations suivantes pour les différents types de cancer :
Type 1 : Tous les cancers (0.34% de données manquantes)
Type 2 : Tous les cancers sauf celui du poumon (0.34% de données manquantes)
Type 3 : Cancer de la vessie (2.22% de données manquantes)
Type 4 : Cancer du système nerveux central (9.27% de données manquantes)
Type 5 : Cancer du sein (50.34% de données manquantes)
Type 6 : Cancer du col de l’utérus (50.37% de données manquantes)
Type 7 : Cancer du colon (4% de données manquantes)
Type 8 : Cancer du colon, du rectum et de l’anus (0% de données manquantes)
Type 9 : Cancer du corps de l’utérus (58.16% de données manquantes)
Type 10 : Cancer de la vésicule biliaire (15.08% de données manquantes)
Type 11 : Lymphome de Hodgkin (17.56% de données manquantes)
Type 12 : Cancer de l’intestin (11.28% de données manquantes)
Type 13 : Cancer du rein (21.86% de données manquantes)
Type 14 : Cancer du larynx (3.79% de données manquantes)
Type 15 : Leucémie (0.13% de données manquantes)
Type 16 : Cancer des lèvres, de la bouche et du pharynx (0.74% de données manquantes)
Type 17 : Cancer des lèvres, de la bouche, du pharynx, du larynx et de l’oesophage (0.34%
de données manquantes)
Type 18 : Cancer du foie (12.46% de données manquantes)
Type 19 : Cancer du poumon (0% de données manquantes)