Badji Mokhtar Annaba university –Department
Master 1ère année – GL – ISI – 2025 / 2026
Machine Learning
Pr. Halima BAHI
Travaux Pratiques 4
Machines à vecteur de supports
Considérons le dataset « parkinson » disponible à
https://www.kaggle.com/datasets/vikasukani/parkinsons-disease-data-set où les échantillons du
dataset représentent des caractéristiques vocales de personnes pouvant être atteintes de la
maladie de parkinson. Le but du travail demandé est de détecter si une personne est atteinte ou
non de la maladie de Parkinson.
A. Description exploratoire
1. Charger les données, examiner la proportion de chaque classe.
2. Statistiques descriptives pour quelques variables.
3. Visualisations : histogrammes, boxplots
4. Vérifier corrélations entre variables (matrice de corrélation) pour détecter redondances.
B. Prétraitement
1. Gérer valeurs manquantes (vérifier s’il y en a).
2. Normaliser/standardiser les variables.
3. Encoder les variables catégorielles (si elles existent)
4. Éventuellement faire réduction de dimension ou sélection de variables (ex : éliminer
variables très corrélées ou peu informatives).
C. Partition des données
1. Split train/test (ex : 70 % train / 30 % test) ou train/validation/test (ex : 60/20/20).
D. Entraînement baseline
1. Entraîner trois modèle des classifications basés sur le SVM, en utilisant les trois noyaux
(lineaire, polynomial, et radial basis function).
E. Évaluation
1. Comparer les trois modèles sur le test set.
2. Générer la matrice de confusion.
3. Calculer : accuracy, précision, rappel (sensitivity), spécificité, F1-score.
4. Tracer la courbe ROC et calculer l’AUC.