TP2 - Erick STATTNER

Téléchargement

Master 1ère

année

Informatique – Mathématiques

TP n°3

Fouille de données

Modélisation prédictive

Environnement de travail :

Système WEKA 3.4

Java 2 version JDK 1.4

Méthodes pour la modélisation prédictive dans WEKA

L’implémentation d’une méthode d’apprentissage particulière est réalisée par une classe Java. Les classes qui

implémentent une méthode de classification supervisée ou une méthode de régression sont regroupées dans le

package weka.classifiers. La classe weka.classifiers.Classifier définit la structure générale commune à toutes

les méthodes de classification.

Exercice 1 – Règles de classification – Arbres de décision

Pour cet exercice, on utilisera les données du fichier labor.arff étudié au TD précédent

1.1 OneR

- Rechercher à partir du jeu labor, un modèle prédictif en utilisant la méthode implémentée par OneR avec les

paramètres par défaut

- Analyser le résultat

- Quel est l'attribut choisi par la méthode?

- Quel est le taux d'exemples mal classés au total?

- Quel est le taux d'exemples mal classés dans chaque classe?

- Quel est la probabilité pour qu'un contrat inacceptable soit classé "acceptable"?

La zone Classifier model donne la description textuel du modèle

=== Classifier model (full training set) ===

wage-increase-first-year:

< 2.9 -> bad

>= 2.9 -> good

? -> good

=== Summary ===

Correctly Classified Instances 43 75.4386 %

Incorrectly Classified Instances 14 24.5614 %

La zone Confusion Matrix affiche la matrice de confusion

=== Confusion Matrix ===

a b <-- classified as

9 11 | a = bad

3 34 | b = good

- Modifier le jeu de données initial labor en remplaçant les valeurs manquantes (cf TD précédent) et sauvegarder le

jeu modifié dans le fichier labor2.arff

Master 1ère

année

Informatique – Mathématiques

- Rechercher à partir du jeu labor2, un modèle prédictif en utilisant la méthode implémentée par OneR avec les

paramètres par défaut

- Observer le modèle extrait ; a-t-il de meilleures performances?

1.2 J48

- Rechercher à partir du jeu labor2, un modèle prédictif en utilisant la méthode implémentée par J48 avec les

paramètres par défaut

Les valeurs affichées pour chaque règle, indiquent le nombre moyen d'exemples qui atteignent la feuille de l'arbre

(c.a.d vérifient la partie gauche de la règle).

- L'arbre de décision extrait peut être visualisé en cliquant bouton droit sur la ligne correspondant à l'expérience dans

le panneau Result list

- Observer le modèle extrait ; a-t-il de meilleures performances :

- Quel est le taux d'exemples mal classés au total?

- Quel est le taux d'exemples mal classés dans chaque classe?

- Quel est la probabilité pour qu'un contrat inacceptable soit classé "acceptable"?

Exercice 2 – Règles de classification – Arbres de décision - KNN

Pour cet exercice, on utilisera les données du fichier vote.arff étudié au TD précédent

2.1 J48

- Rechercher à partir du jeu vote, un modèle prédictif en utilisant la méthode implémentée par J48 avec les

paramètres par défaut

- Analyser le résultat

- Quel est le taux d'exemples mal classés au total?

- Quel est le taux d'exemples mal classés dans chaque classe?

- Quel est la probabilité pour qu'un vote "républicain" soit classé "democrate"? et réciproquement?

Exercice 3– Différencier les cas d'erreurs

Pour cet exercice, on utilisera les données du fichier credit-g.arff avec class comme attribut de classe.

3.1 Exploration du jeu de données

- Effectuer une première analyse du jeu de données en utilisant les informations données par le fichier texte et les

mesures et histogrammes fournis par Weka

3.2 Recherche de classifieurs

- Analyser le classifieur obtenu en exécutant l'algorithme J48 avec les paramètres par défaut

- Analyser le classifieur obtenu en exécutant l'algorithme J48 avec les paramètres par défaut excepté le paramètre

minNumObj auquel on donnera la valeur 20 pour élaguer l'arbre

- Quelle est avec ce modèle la probabilité de prédire un crédit sans risque alors qu'il est risqué?

- Refaire les tests en utilisant les KNN (Lazy -> IBk)

- Quel classifieur donne les meilleurs résultats?

1 / 2 100%

Documents connexes

Connexionnisme : l`algorithme de Rétro-propagation.

CSI4506, Automne 2004: Devoir # 3

Mise en œuvre sur machine : RNs, C4.5, SVM

Monsonego Traité des infections et pathologies génitales

Présentation PowerPoint

Les papillomavirus humains (HPV) provoquent le cancer du

CSI4506 : Automne 2008 Devoir 3 : Apprentissage Distribué le 6

TD Apprentissage Automatique

CSI4506, Automne 2004: Devoir # 3

À propos de ce livre

Mettre en place un plan de communication

TD1 – WEKA 0 Ouverture 1 Les données

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

TP2 - Erick STATTNER

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

TP2 - Erick STATTNER

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib