Travaux Dirigés / Travaux Pratiques Machine Learning par domaine

Telechargé par kouldjim raphael
Travaux Dirigés / Travaux Pratiques
Machine Learning par domaine
Exercices pratiques avec jeux de données réels
et corrections commentées
Responsable du Module : Mouaz M.
7 mai 2026
Table des matières
1 San Classification dimages médicales (Pneumonie) 4
1.1 Objectifs .............................. 4
1.2 Questions ............................. 4
2 Finance Détection de fraude sur transactions 5
2.1 Objectifs .............................. 5
2.2 Questions ............................. 5
3 Industrie Maintenance prédictive (turbofan) 6
3.1 Objectifs .............................. 6
3.2 Questions ............................. 7
4 E-commerce Recommandation de produits 8
4.1 Objectifs .............................. 8
4.2 Questions ............................. 8
5 Transport Estimation du temps darrivée 9
5.1 Objectifs .............................. 9
5.2 Questions ............................. 9
2
6 Agriculture Reconnaissance de mauvaises herbes par seg-
mentation 10
6.1 Objectifs .............................. 10
6.2 Questions ............................. 11
7 San Détection de lésions (localisation vs classification glo-
bale) 11
7.1 Objectifs .............................. 12
7.2 Questions ............................. 12
8 Finance Score de risque de crédit interprétable 13
8.1 Objectifs .............................. 13
8.2 Questions ............................. 13
9 Industrie Détection danomalies multicapteurs sans étiquette 14
9.1 Objectifs .............................. 14
9.2 Questions ............................. 15
10 E-commerce Prédiction de churn client 16
10.1 Objectifs .............................. 16
10.2 Questions ............................. 16
3
1 San Classification dimages médicales (Pneu-
monie)
Tâche : Classification binaire thorax sain / pneumonie.
Données : Chest X-Ray Images (Pneumonia) 5 863 images RX de jeunes
enfants, 2 classes.
1.1 Objectifs
Prétraiter des images médicales pour un CNN.
Construire un modèle simple puis utiliser le transfer learning.
Évaluer la criticité des faux négatifs en contexte clinique.
1.2 Questions
1. Prétraitement : redimensionner en 224 ×224, normaliser les pixels dans
[0,1]. Créer des splits train/val/test conservant la distribution des classes.
2. Modèle simple : un CNN avec 2–3 couches convolutives + denses. En-
traîner 10 epochs, relever précision, rappel, F1-score sur le test.
3. Modèle performant : transfer learning avec ResNet18 pré-entraîné sur
ImageNet. Ajuster le classifieur. Comparer les métriques des deux mo-
dèles.
4. Acher la matrice de confusion, calculer le nombre de faux négatifs
(FN). Commenter leur criticité en santé.
5. Extraire 5 exemples de faux négatifs du modèle performant, acher li-
mage et la probabilité prédite. Proposer une analyse (images floues, lésions
peu visibles, etc.).
Corrigé commen
Corrigé commen
Prétraitement : utiliser torchvision.transforms. Bien re-
marquer que le jeu est fourni avec des dossiers train/test/val
déjà séparés, mais le split peut être refait pour garantir la repré-
sentativité.
Modèle simple : un CNN avec Conv2d(3,32,3), maxpool,
Conv2d(32,64,3), une couche dense env. 8085% daccuracy
4
sur test. Attention au surapprentissage si trop de paramètres.
ResNet18 : geler les premières couches, ne dégeler que la der-
nière couche fully connected. Obtenir >90% précision et rappel.
La matrice de confusion montre le danger : même un taux de FN
de 5% = des cas de pneumonie manqués.
FN critiques : en santé, un faux négatif retarde le traitement.
Commenter avec lexemple dune opacité discrète que le modèle a
classée « normale ».
Exemples commentés : images avec annotations manuelles :
« Poumon droit avec infiltrat très faible contraste, le modèle ne la
pas vu amélioration possible avec augmentation de contraste
ou réglage de seuil ».
2 Finance Détection de fraude sur transac-
tions
Tâche : Classification binaire transaction légitime / frauduleuse.
Données : Credit Card Fraud Detection 284 807 transactions anonymi-
sées (ACP), 0,17% de fraudes.
2.1 Objectifs
Gérer un déséquilibre de classes extrême.
Comparer techniques de rééchantillonnage et pondération.
Définir une matrice de coût et optimiser le seuil de décision.
2.2 Questions
1. Analyser le déséquilibre. Appliquer une sous-échantillonnage aléatoire
de la classe majoritaire pour obtenir un ratio 50/50, et un sur-échantillonnage
avec SMOTE. Conserver un jeu de test intact.
2. Entraîner une régression logistique avec pondération des classes class_weight=balanced.
Comparer avec les deux techniques de rééchantillonnage (modèle entraîné
sur données équilibrées).
3. Évaluer : AUC-ROC, rappel de la classe fraude, et définir une matrice de
coût (ex. : coût FP = 10 , coût FN = 500 ). Calculer le coût total sur le
test.
5
4. Discuter le compromis FP / FN : pourquoi une banque accepterait davan-
tage de FP pour réduire les FN ? Quel seuil de probabilité minimiserait
le coût ?
Corrigé commen
Corrigé commen
Déséquilibre : ne jamais évaluer sur des données rééchantillon-
nées ; toujours garder le test original.
Comparaison :
Sous-échantillonnage perd de linformation, rappel OK
mais FP nombreux.
SMOTE crée des exemples synthétiques, améliore le rap-
pel sans trop de FP si bien réglé.
Pondération des classes simple, ecace, ne modifie pas
le jeu dentraînement.
Courbe ROC : avec pondération, AUC 0.97. Le rappel fraude
atteint 0.85 sans sacrifier excessivement la précision.
Matrice de coût : coût_total =FP×10+FN×500. En ajustant
le seuil de décision (par ex. seuil à 0.1au lieu de 0.5), on réduit
les FN et donc le coût global, même si les FP augmentent.
Commentaire métier : « Bloquer une carte légitime est gênant,
mais manquer une fraude coûte bien plus cher. »
Recommandation : régression logistique pondérée, seuil ajusté
pour minimiser le coût interprétable et léger.
3 Industrie Maintenance prédictive (turbo-
fan)
Tâche : Prédire une défaillance imminente à partir de capteurs temporels.
Données : NASA CMAPSS Turbofan (fichier FD001) 100 moteurs, 21
capteurs par cycle.
3.1 Objectifs
Construire des features temporelles (fenêtres glissantes).
Définir une cible binaire pour lanticipation de panne.
6
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!