Data Mining 1 Sans détours 2 Premiers tests 3 Classification de

Téléchargement

G Gasso

Data Mining

TD Régression logistique

4eme année

— Mise en œuvre de la régression logistique

— Test sur des données jouet et données réelles

1 Sans détours

1. La fonction reglogclass.m permettant de calculer les paramètres d’un modèle de régression

logistique est fournie sur Moodle. Télécharger et comprenez les diﬀérentes étapes de ce pro-

gramme.

2. Ecrire une fonction ypred = reglogval(X, theta) qui prend en entrée une matrice de données

Xet le vecteur θet qui retourne le vecteur des labels prédits.

2 Premiers tests

1. Utiliser le script fourni lors de la séance précédente pour générer n1= 100 données pour C1et

n2= 150 pour C2. Dans la suite on ne travaillera qu’avec les données X,Y générées.

— Tester la fonction reglogclass sur ces données. Tracer la frontière de décision donnée par

la méthode de la régression logistique. Calculer l’erreur de classiﬁcation.

— Comparez les résultats obtenus avec ceux de la LDA.

3 Classiﬁcation de chiﬀres manuscripts

3.1 Tour de chauﬀe

Sur Moodle se trouvent les données MNIST apprentissage et test contenant des chiﬀes 0 à 9.

Téléchargez ces données. Le label associé à un chiﬀre appartient à {0,· · · ,9,10}(les chiﬀres 0 ont

comme label 10).

1. Choisir deux chiﬀres et récupérer les données Xet les labels Ycorrespondants à ces chiﬀres

dans le jeu d’apprentissage pour former un problème de classiﬁcation binaire. Faire de même

pour le jeu de test.

2. Réaliser une classiﬁcation par la méthode de régression logistique sur les données ainsi formées

(Pensez aux fondamentaux de la fouille de données : normalisation des données ; on calcule le modèle sur

l’ensemble d’apprentissage ; on sélectionne les éventuels hyper-paramètres sur les données de validation ;

on teste le modèle ﬁnal sur le jeu de test). Evaluer les erreurs de classiﬁcation et de test.

3. Si votre machine tient la charge comparer la régression logistique à la LDA.

3.2 Analyse ﬁne des erreurs de classiﬁcation

Pour simpliﬁer les notations, on va supposer que C1est la classe des "positifs" (y= 1) et C2la

classe des "négatifs" (y= 0). Pour analyser ﬁnement les erreurs on établit la matrice de confusion

DataMining TD Régression logistique ASI4

XXXXXXXXXX

Prédite ˆy

Réelle yC1=P os C2=Neg

C1=P os T P F P

C2=Neg F N T N

Total N1N2

avec

— TP : nombre de positifs classés positifs (bonnes prédictions)

— FP : nombre de négatifs classés positifs (erreurs)

— FN : nombre de positifs classés négatifs (erreurs)

— TN : nombre de négatifs classés négatifs (bonnes prédictions)

A partir de cette matrice on peut calculer diﬀérents critères de performances utiles pour analyser

les résultats de classiﬁcation dont :

— Taux de faux positifs : fpr =F P

F P +T N =F P

— Taux de vrais positifs : tpr =T P

T P +F N =T P

Un bon classiﬁeur est celui qui donnera un faible fpr et un fort tpr

1. Etablir la matrice de confusion sur les données test pour la régression logistique. En déduire

alors les performances de fpr et tpr. Selon vous comment peut-on calculer le taux d’erreur à

partir de la matrice de confusion ?

2. Répondre à la même question pour la méthode LDA et comparer les deux méthodes

4 Quelques noeuds aux cheveux

1. Appliquer la régression logistique sur les données clowns.mat. Séparer les données en deux

parties : apprentissage et test. Estimer l’erreur de classiﬁcation pour les données d’apprentissage

et de test. On tracera la frontière de décision obtenue ainsi que les données des deux classes.

2. Comment améliorer les performances en classiﬁcation ?

1 / 2 100%

Documents connexes

Introduction au Modèle Linéaire

Fonction homographique et comportement d`oiseaux

TD Statistique & Reconnaissance de Formes - MATLAB

Régression Logistique avec SPSS : Guide Complet

Regression linéaire non gausienne

Text mining

l`actuariel n° 15

Offre de stage

Régression logistique

Les états confusionnels

Garçon de 4 ans, douleurs abdominales et - chu

TADE - LAMFA - Université de Picardie Jules Verne

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Data Mining 1 Sans détours 2 Premiers tests 3 Classification de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Data Mining 1 Sans détours 2 Premiers tests 3 Classification de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib