Université de Québec À Montréal
Département d’Informatique
Document d’utilisation :
Environnement Weka
H. Yazid
Dirigé par : Prof . Hakim Lounis
Environnement Weka Page 2 sur 28 26/01/2006
Table des matières
I. Introduction ..............................................................................................................................3
I.1 Description globale de Weka..................................................................................................3
I.2 Composants de l’environnement Weka ..................................................................................5
I.3 Préparation de l’ensemble des données d’apprentissage et de test (dataset) .........................5
II. Explorer .......................................................................................................................................7
II.1 Phase de prétraitement...........................................................................................................7
II.2 Application d’un algorithme d’apprentissage........................................................................9
III. Experimenter ............................................................................................................................14
III.1 Description globale de la phase d’initialisation des paramètres d’expérimentation ..........15
III.2 Phase d’exécution...............................................................................................................17
III.3 Phase d’analyse ..................................................................................................................19
IV. KnowledgeFlow environment..................................................................................................22
IV.1 Structure de KnowledgeFlow environnement....................................................................22
IV.2 Comment utiliser cet outil?................................................................................................23
V. Conclusion.................................................................................................................................28
VI. Références................................................................................................................................28
Environnement Weka Page 3 sur 28 26/01/2006
I. Introduction
Ce document se veut une présentation de l’environnement Weka et de son utilisation illustrée à
travers des exemples. Dans cette section, nous allons donner une description sommaire de
l’environnement Weka en commençant par sa définition, son rôle et ses différentes
fonctionnalités assurées par ses différents composants.
Avant d’utiliser cet environnement dans différentes expérimentations, il est nécessaire que les
données utilisées à cet effet-la soient transcrites selon un format; une mise en forme des données.
En d’autres termes, les données doivent être conformes aux formats de données disponibles au
niveau de l’environnement Weka.
Nous avons choisi différents datasets inclus dans le package Weka pour les trois outils Explorer,
Experimenter et KnowledgeFlow environment pour explorer les différentes facettes de
l’environnement Weka.
Ce document est structuré principalement en trois grandes parties qui représentent les trois outils
fournis par l’environnement Weka à savoir l’Explorer, l’Experimenter et le KnowledgeFlow.
Ainsi, la première section sera consacrée à l’outil Explorer en définissant son rôle et ses
fonctionnalités qui seront illustrées à travers un exemple. La seconde décrira le rôle et les
différentes étapes de l’exécution d’une expérimentation par l’outil Experimenter. Ces étapes sont
expliquées aussi via un exemple illustrant les différentes fonctionnalités de cet outil. La dernière
section présentera l’outil KnowledgeFlow, son rôle et ses différentes fonctionnalités. Dans cette
même section, nous présenterons comment construire un schéma de flux de connaissances en
utilisant les composants de Weka présents dans la barre des outils.
I.1 Description globale de Weka
Weka (Waikato Environment for Knowledge Analysis) est un environnement de fouille de
données développé par le groupe de recherche "machine learning" du département d’informatique
de l’université de Waikato en Nouvelle-Zélande. Il est utilisé dans le domaine de la recherche, de
l’éducation et de l’industrie. Il est écrit dans le langage Java et testé sur plusieurs plateformes tels
Environnement Weka Page 4 sur 28 26/01/2006
que Linux et Windows. Cet environnement est un logiciel "open source" et est disponible sur le
site du groupe de recherche "machine learning" du département d’informatique de l’université de
Waikato [3].
Weka est une collection d'algorithmes d’apprentissage dont le but est de réaliser des tâches de
fouille de données. Les algorithmes peuvent être appliqués directement à un ensemble de données
ou appelés via un programme Java. Weka contient les outils pour le prétraitement de données, la
classification, la régression, le groupement (clustering), les règles d'association et la visualisation.
En effet, Weka permet d’effectuer un prétraitement sur un ensemble de données, d’appliquer un
algorithme d’apprentissage, et d’analyser les résultats et les performances d’un classificateur. Il
est aussi bien adapté pour intégrer de nouveaux algorithmes d’apprentissage.
La version utilisée dans ce document est la plus récente : la version 3.4.6 (figure 1). Cette
dernière présente de nouvelles fonctionnalités surtout au niveau de l’outil KnowledgeFlow par
rapport à la version 3.4.
Figure 1 Environnement Weka
Environnement Weka Page 5 sur 28 26/01/2006
I.2 Composants de l’environnement Weka
Weka possède plusieurs composants à savoir :
- Explorer : ce module regroupe tous les packages importants de Weka à savoir le
prétraitement, les algorithmes d’apprentissage, le groupement (clustering), les
associations, la sélection des attributs et la visualisation.
- Experimenter : permet d’exécuter plusieurs algorithmes d’apprentissage en mode lot
(batch) et de comparer leurs résultats.
- KnowledgeFlow environment : fournit les mêmes fonctionnalités que le composant
"Explorer". Ces fonctionnalités sont représentées sous forme graphique et sont utilisées
pour construire un schéma de flux de connaissances via une interface drag-and-drop.
I.3 Préparation de l’ensemble des données d’apprentissage et de test
(dataset)
Cette opération est requise pour l’utilisation de tout outil de l’environnement Weka et c’est pour
cette raison que l’on a préféré la décrire avant d’entamer la description des outils de Weka.
Généralement, d’après la littérature, les données servant à l’expérimentation dans n’importe quel
domaine sont stockées dans des fichiers Excel et le format des données utilisées par les tâches de
fouille de données est "arff". Avant d’appliquer donc les algorithmes d’apprentissage, ces
données doivent être transformées en un fichier de données avec l’extension "arff" pour être lu
soit par Explorer, Experimenter ou KnowledgeFlow. Les transformations consistent à :
- Sauvegarder le fichier de données d’apprentissage et de test au niveau de l’outil Excel
sous la forme .csv (comma separated value);
- Lire le fichier avec l’extension "csv" dans un éditeur;
- Ajouter en entête du fichier les informations nécessaires au module "Explorer";
o Définition des données d’apprentissage par une relation sous forme de : @relation
nom-des-données-d’apprentissage (Dataset), e.g., @relation iris (figure 2).
1 / 28 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !