Laboratoire 3 – Méthodologie pour l`entrainement de classificateurs

Téléchargement

Laboratoire 3 – Méthodologie pour l’entrainement

de classificateurs

SYS828 – Systèmes biométriques

Responsable et enseignant: Eric Granger

Auxiliaire de laboratoire: Marc-André Carbonneau

Session: A2015

Introduction

Afin d’observer l’impact d’une méthode d’extraction de caractéristiques et la réduction de

dimensionnalité sur les performances de classificateurs, nous devons définir une méthodologie pour

l’entraînement de ces derniers. Les objectifs de ce laboratoire sont de se familiariser avec les étapes

d’un apprentissage supervisé et les moyens utilisés pour évaluer les performances de classificateurs.

Les expérimentations seront effectuées à l’aide du classificateur kNN. En première partie, nous

décrirons le classificateur kNN ainsi que le protocole utilisé pour l’entraînement supervisé d’un

classificateur. Ensuite, nous nous attarderons sur les éléments entourant l’évaluation de performance

de classificateurs : les indicateurs de performances, les estimateurs et les techniques de validation.

Finalement, nous expliquerons la partie expérimentale pour ce laboratoire.

Entraînement supervisé du classificateur kNN

Classificateur kNN

Le classificateur des k plus proche voisins (kNN pour k Nearest Neighbor) est un est algorithme qui classe

les objets selon leurs proximités aux données utilisées pour l’entraînement dans l’espace de

caractéristiques. C’est une approche par modélisation simple qui approxime la frontière de décision

localement. Il n’y a pas d’entraînement proprement dit et les calculs sont seulement effectués lors de la

classification.

Comme la Figure 1 le démontre, la classification est effectuée par un vote majoritaire de son voisinage

et l’objet est assigné à la classe la plus présente parmi les k plus proche voisins. Bien que plusieurs

distances peuvent être utilisées pour définir le voisinage, la mesure la plus utilisée est la distance

euclidienne, définie par :







où  et  sont deux points dans un espace.

Figure 1 - Exemple de voisinage en utilisant 3 voisins et 6 voisins. Si on ne considère que 3 voisins on attribuera la classe B alors

que si on considère 6 voisins, on attribuera plutôt la classe A.

[source : http://bdewilde.github.io/blog/blogger/2012/10/26/classification-of-hand-written-digits-3/]

Le classificateur kNN est une méthode non-paramétrique qui ne nécessite pas d’établir une hypothèse

au préalable sur la nature des distributions de données (contrairement à une régression linéaire, par

exemple). Le seul paramètre à déterminer est la taille du voisinage (k) et est défini à partir des données.

Tel qu’illustré à la Figure 2, une grande valeur de k réduit l’effet du bruit sur les données, mais définie

des frontières de décisions sans tenir compte de particularités locales.

Figure 2 - Illustration des frontières de décisions obtenues avec kNN en considérant un nombre différent de voisins.

[source : http://bdewilde.github.io/blog/blogger/2012/10/26/classification-of-hand-written-digits-3/]

Sélection d’hyper-paramètres en utilisant la validation

Une méthode généralement utilisée pour déterminer les paramètres de divers classificateur est

l’apprentissage avec validation. Cette technique consiste à séparer les données utilisées pour

l’apprentissage en deux groupes : un premier dédié à l’entraînement et l’autre à la validation.

Pour chacune des configurations de paramètres que l’on veut comparer, on entraine le classificateur en

utilisant les données d’entrainement. On obtient ensuite les performances de cette configuration en

utilisant la base de validation. Après avoir testé toutes les configurations, on choisit celle qui a obtenu

les meilleurs résultats sur la base de validation et on l’utilise pour entrainer le classificateur final en

utilisant toutes les données (entrainement et validation)

Figure 3 - Exemple de courbes obtenues en utilisant la validation pour la sélection de paramètres.

La Figure 3, montre les performances du classificateur évaluées en utilisant les deux bases de données.

Dans le cas représenté, on choisirait 5 pour la valeur du paramètre k parce que c’est avec cette valeur

qu’on a obtenu les meilleures performances sur la base de validation.

Évaluation de classificateurs

Afin d’évaluer les performances de classificateurs, une base de données de test indépendante à la base

de données d’apprentissage est utilisée. Chaque algorithme d’apprentissage est évalué en fonction de

ses capacités de généralisation, des ressources en mémoire utilisées et du coût de calcul. Il existe

beaucoup d’indicateurs de performance qu’on choisit en fonction du problème. Les plus utilisés sont :

 Le taux de classification : ratio de bonnes classifications obtenues par rapport à l’ensemble des

données de la base de test. Équivalemment, on peut utiliser l’erreur de classification qui est le

ratio de mauvaise classification. Pour les problèmes à plusieurs classes, il est également possible

d’utiliser une matrice de confusion qui décortique les résultats de classifications pour chaque

classe individuellement.

 Le nombre de paramètres: le nombre de valeur à déterminer pour utiliser le classificateur. Dans

le cas du kNN, il n’y a qu’un seul paramètre. Dans un SVM avec un noyau gaussien, il y aura

typiquement deux paramètres (C et ). On privilégiera bien sûr les classificateurs ayant moins de

paramètres.

 La complexité : On mesurera le nombre d’opération nécessaire pour l’apprentissage et la

classification en fonction du nombre de données et de leur dimensionnalité. Lorsque possible,

on utilisera la notation « big O » qui montre comment le temps de calcul augment avec chacune

des caractéristiques des données. Par exemple, un algorithme ayant une complexité de 

verra son temps de calcul augmenter linéairement avec le nombre de données () et

quadratiquement avec la dimensionnalité des données (). Cette mesure est aussi utilisée pour

caractériser la consommation de mémoire d’un algorithme. Dans certains cas, il est très difficile

de déterminer la complexité avec la notation « big O », certain auteurs utilisent alors le temps

en secondes nécessaire à l’exécution de l’entrainement ou au test à des fin comparative.

Estimation des indicateurs

Il est impossible d’avoir la valeur exacte des indicateurs de performance. En effet, l’utilisation d’une

quantité finie de données pour l’évaluation des performances implique une connaissance incomplète de

la nature des données. C’est pourquoi on doit utiliser des estimateurs qui seront calculés en effectuant

plusieurs réplications d’une même expérience.

L’estimateur généralement utilisé est la moyenne. On rapportera aussi l’écart-type afin d’indiquer les

intervalles de confiances concernant la mesure de performance. À l’aide de tests statistiques, il sera

possible d’affirmer s’il y a des différences significatives entre les différents systèmes de classification.

Notez bien qu’il est également possible d’utiliser la médiane avec laquelle il existe plusieurs tests

statistiques intéressants.

Il existe plusieurs méthodes pour effectuer plusieurs réplications du processus d’apprentissage avec

validation. Les deux méthodes les plus utilisées sont :

A) Validation “hold-out” : utilisée lorsque beaucoup de données sont disponible. La validation

“hold-out” effectue plusieurs réplications à l’aide de groupes de données distincts. Par exemple,

pour 5 réplications, 5 bases de données d’entraînement, de validation et de test seront utilisées.

B) Validation croisée : quand la base de données consacrée à l’entraînement est petite on utilise

l’algorithme de validation croisée à K blocs (K-fold cross-validation). Comme il est illustré à la

Figure 4, pour 5 réplications (K = 5), on divise la base d’entraînement en cinq parties – quatre

pour l’apprentissage et une pour la validation – et on répète l’apprentissage cinq fois avec

rotations des parties.

Figure 4 - Illustration de la validation croisée à 5 blocs.

Expérimentations

Exploration avec les données synthétiques

A) Utiliser le script exp3_methodologie_a.m pour déterminer le nombre de caractéristiques. Vous

devez utiliser le classificateur 1NN (kNN avec k = 1) et un entraînement avec validation "hold-out". Pour

chaque valeur du nombre de caractéristiques, vous devez entraîner 1NN et déterminer le taux d’erreur

avec la base de validation.

B) Utiliser le script exp3_methodologie_b.m pour entraîner le classificateur kNN en utilisant un

apprentissage avec validation croisée et la base de données synthétiques vues dans les laboratoires

précédents. Faire 5 réplications et calculez les indicateurs de performance pour kNN.

Fonction utiles (PRTools) : knnc, plotc, testc, classc, prcrossval .

Exploration avec les données réelles

Écrire et exécuter un script (exp3_faces.m) pour entraîner le classificateur k-NN en utilisant un

apprentissage avec “cross-validation” et avec les algorithmes d’extraction de caractéristiques:

A) Séparer la base de données d’AT&T en bases d’apprentissage et de test. Les 5 premiers visages

de chaque individu sont assignés à la base d’apprentissage et les 5 derniers, à la base de test

(voir laboratoire 2).

B) Séparer la base d’apprentissage de manière à faire une validation croisé en 5 blocs. Vous devriez

avoir 5 bases d’entraînement (contenant 4/5 des données) et 5 bases de validation (le dernier

1/5 des données).

C) Appliquer la PCA sur la base de données afin d’en extraire les caractéristiques.

D) Déterminer le nombre de caractéristiques optimal à utiliser avec le classificateur 1NN (kNN avec

k = 1) en utilisant la validation croisée. Faire varier le nombre de caractéristiques et déterminer

le taux d’erreur sur la base de validation.

E) En utilisant le nombre de caractéristiques optimal obtenu en D), toujours en utilisant la

validation croisée, déterminer le paramètre k optimal.

F) Évaluer la performance sur la base de test.

G) Refaire les mêmes étapes avec des bases de données traitées avec les algorithmes d’extraction

de caractéristiques LDA.

1 / 5 100%

Laboratoire 3 – Méthodologie pour l`entrainement de classificateurs

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Laboratoire 3 – Méthodologie pour l`entrainement de classificateurs

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib