Travaux Dirigés / Travaux Pratiques Machine Learning par domaine

Telechargé par kouldjim raphael

Téléchargement

Travaux Dirigés / Travaux Pratiques

Machine Learning par domaine

Exercices pratiques avec jeux de données réels

et corrections commentées

Responsable du Module : Mouaz M.

mail : [email protected]

7 mai 2026

Table des matières

1 Santé Classiﬁcation dimages médicales (Pneumonie) 4

1.1 Objectifs .............................. 4

1.2 Questions ............................. 4

2 Finance Détection de fraude sur transactions 5

2.1 Objectifs .............................. 5

2.2 Questions ............................. 5

3 Industrie Maintenance prédictive (turbofan) 6

3.1 Objectifs .............................. 6

3.2 Questions ............................. 7

4 E-commerce Recommandation de produits 8

4.1 Objectifs .............................. 8

4.2 Questions ............................. 8

5 Transport Estimation du temps darrivée 9

5.1 Objectifs .............................. 9

5.2 Questions ............................. 9

6 Agriculture Reconnaissance de mauvaises herbes par seg-

mentation 10

6.1 Objectifs .............................. 10

6.2 Questions ............................. 11

7 Santé Détection de lésions (localisation vs classiﬁcation glo-

bale) 11

7.1 Objectifs .............................. 12

7.2 Questions ............................. 12

8 Finance Score de risque de crédit interprétable 13

8.1 Objectifs .............................. 13

8.2 Questions ............................. 13

9 Industrie Détection danomalies multicapteurs sans étiquette 14

9.1 Objectifs .............................. 14

9.2 Questions ............................. 15

10 E-commerce Prédiction de churn client 16

10.1 Objectifs .............................. 16

10.2 Questions ............................. 16

1 Santé Classiﬁcation dimages médicales (Pneu-

monie)

Tâche : Classiﬁcation binaire thorax sain / pneumonie.

Données : Chest X-Ray Images (Pneumonia) 5 863 images RX de jeunes

enfants, 2 classes.

1.1 Objectifs

— Prétraiter des images médicales pour un CNN.

— Construire un modèle simple puis utiliser le transfer learning.

— Évaluer la criticité des faux négatifs en contexte clinique.

1.2 Questions

1. Prétraitement : redimensionner en 224 ×224, normaliser les pixels dans

[0,1]. Créer des splits train/val/test conservant la distribution des classes.

2. Modèle simple : un CNN avec 2–3 couches convolutives + denses. En-

traîner 10 epochs, relever précision, rappel, F1-score sur le test.

3. Modèle performant : transfer learning avec ResNet18 pré-entraîné sur

ImageNet. Ajuster le classiﬁeur. Comparer les métriques des deux mo-

dèles.

4. Aﬃcher la matrice de confusion, calculer le nombre de faux négatifs

(FN). Commenter leur criticité en santé.

5. Extraire 5 exemples de faux négatifs du modèle performant, aﬃcher li-

mage et la probabilité prédite. Proposer une analyse (images ﬂoues, lésions

peu visibles, etc.).

Corrigé commenté

—Prétraitement : utiliser torchvision.transforms. Bien re-

marquer que le jeu est fourni avec des dossiers train/test/val

déjà séparés, mais le split peut être refait pour garantir la repré-

sentativité.

—Modèle simple : un CNN avec Conv2d(3,32,3), maxpool,

Conv2d(32,64,3), une couche dense →env. 80–85% daccuracy

sur test. Attention au surapprentissage si trop de paramètres.

—ResNet18 : geler les premières couches, ne dégeler que la der-

nière couche fully connected. Obtenir >90% précision et rappel.

La matrice de confusion montre le danger : même un taux de FN

de 5% = des cas de pneumonie manqués.

—FN critiques : en santé, un faux négatif retarde le traitement.

Commenter avec lexemple dune opacité discrète que le modèle a

classée « normale ».

—Exemples commentés : images avec annotations manuelles :

« Poumon droit avec inﬁltrat très faible contraste, le modèle ne la

pas vu →amélioration possible avec augmentation de contraste

ou réglage de seuil ».

2 Finance Détection de fraude sur transac-

tions

Tâche : Classiﬁcation binaire transaction légitime / frauduleuse.

Données : Credit Card Fraud Detection 284 807 transactions anonymi-

sées (ACP), 0,17% de fraudes.

2.1 Objectifs

— Gérer un déséquilibre de classes extrême.

— Comparer techniques de rééchantillonnage et pondération.

— Déﬁnir une matrice de coût et optimiser le seuil de décision.

2.2 Questions

1. Analyser le déséquilibre. Appliquer une sous-échantillonnage aléatoire

de la classe majoritaire pour obtenir un ratio 50/50, et un sur-échantillonnage

avec SMOTE. Conserver un jeu de test intact.

2. Entraîner une régression logistique avec pondération des classes class_weight=balanced.

Comparer avec les deux techniques de rééchantillonnage (modèle entraîné

sur données équilibrées).

3. Évaluer : AUC-ROC, rappel de la classe fraude, et déﬁnir une matrice de

coût (ex. : coût FP = 10 , coût FN = 500 ). Calculer le coût total sur le

test.

4. Discuter le compromis FP / FN : pourquoi une banque accepterait davan-

tage de FP pour réduire les FN ? Quel seuil de probabilité minimiserait

le coût ?

Corrigé commenté

—Déséquilibre : ne jamais évaluer sur des données rééchantillon-

nées ; toujours garder le test original.

—Comparaison :

— Sous-échantillonnage →perd de linformation, rappel OK

mais FP nombreux.

— SMOTE →crée des exemples synthétiques, améliore le rap-

pel sans trop de FP si bien réglé.

— Pondération des classes →simple, eﬃcace, ne modiﬁe pas

le jeu dentraînement.

—Courbe ROC : avec pondération, AUC ≈0.97. Le rappel fraude

atteint ≈0.85 sans sacriﬁer excessivement la précision.

—Matrice de coût : coût_total =FP×10+FN×500. En ajustant

le seuil de décision (par ex. seuil à 0.1au lieu de 0.5), on réduit

les FN et donc le coût global, même si les FP augmentent.

—Commentaire métier : « Bloquer une carte légitime est gênant,

mais manquer une fraude coûte bien plus cher. »

—Recommandation : régression logistique pondérée, seuil ajusté

pour minimiser le coût →interprétable et léger.

3 Industrie Maintenance prédictive (turbo-

fan)

Tâche : Prédire une défaillance imminente à partir de capteurs temporels.

Données : NASA CMAPSS Turbofan (ﬁchier FD001) 100 moteurs, 21

capteurs par cycle.

3.1 Objectifs

— Construire des features temporelles (fenêtres glissantes).

— Déﬁnir une cible binaire pour lanticipation de panne.

1 / 16 100%

Documents connexes

astrologues et voyants: différents à quelques

pour le diaporama de la leçon 3.

TABLE DES MATIèRES - Artois Presses Université

CORRIGÉ !!! CORRIGÉ !!! CORRIGÉ

TD : LES AUTORITÉS CRÉATRICES DE DROIT ET LES ACTES

Travaux Dirigés Thermodynamique - Exercices et Corrigés

interrocours2.2

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Travaux Dirigés / Travaux Pratiques Machine Learning par domaine

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Travaux Dirigés / Travaux Pratiques Machine Learning par domaine

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib