Page 1 sur 2
UNIVERSITE DE CARTHAGE
INSTITUT DES HAUTES ETUDES COMMERCIALES
Année Universitaire 2020/2021
Examen Session Principale
Responsables Module : Rim Faiez /
Jihène Tounsi
Partie 1 : Questions de réflexion
1.1 Donnez une définition du terme « Datamining »
1.2 Expliquez brièvement les différentes étapes d’un projet datamining.
1.3 Quelle est la différence entre les méthodes supervisées et non supervisées ?
1.4 Lors de l’application d’un algorithme de datamining, nous sommes amenés à diviser l’échantillon
en 3 Datasets. Quels sont les datasets nécessaires à ce travail et à quoi servent-ils ?
Partie 2 : Traitement des données qualitatives
2.1 Comment peut-on catégoriser les données qualitatives ?
2.2 Quelles sont les différentes techniques pour transformer les données catégoriques en données
numériques ? Mettre l’accent sur le critère de choix entre ces différentes techniques.
2.3 Supposons que nous avons la variable catégorique Température pouvant prendre les valeurs :
chaud, froid, caniculaire. Proposez un encodage adéquat (code python + un schéma illustratif)
Partie 3 : Etude de cas
Dans cette partie nous allons travailler avec un échantillon nommé « data_health.csv ». Cet
ensemble de données contient des informations sur une séance d'entraînement typique : la durée
de la session en minutes, le pouls moyen durant la séance, le pouls maximal, la dépense calorique
durant la séance, le nombre d’heure de travail avant la session d’entraînement et le nombre
d’heure de sommeil durant la nuit précédant la session d’entraînement.
3.1 Donnez le code nécessaire pour importer le jeu de données dans python et afficher les 13
premières lignes
3.2 La figure suivante montre un affichage de ce jeu de données